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本 书 紧 紧 围绕 云 计算 领域 发 展 过 程 中 的 热点 问题 ， 以 云 计算 技术 与 商 
业 应 用 为 核心 ， 全 面 系统 地 介绍 了 云 计算 的 基本 原理 和 应 用 实践 的 最 新 成 
果 。 全 书 共 分 为 7 章 ， 涉 及 云 计算 业务 ，CPU 虚拟 化 ， 数 据 网 络 ， 网 络 设 
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等 内 容 。 此 外 ， 附 录 A 还 对 IETF 业务 与 管理 标准 、TOSCA 业务 流程 、 
REST 架构 风格 、 身 份 与 访问 管理 机 制 进行 了 详细 介绍 。 本 书 材料 权威 丰 
富 ， 体 系 结构 完整 ， 内 容 新 颖 翔实 ， 知 识 系 统 全 面 ， 行 文通 俗 易 懂 ， 兼 备 
知识 性 、 系 统 性 、 可 读 性 、 实 用 性 和 指导 性 。 本 书 可 作为 从 事 云 计算 、 数 
据 中 心 研究 的 电信 运营 商 、 网 络 运 营 商 、 应 用 开发 人 员 、 技 术 经 理 和 电信 
管理 人 员 的 技术 参考 书 或 培训 教材 ， 也 可 作为 高 等 院 校 通信 与 信息 系统 、 
计算 机 等 相关 专业 高 年 级 本 科 生 或 研究 生 教材 。 
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从 2011 年 开始 ， 我 国 云 计算 市 场 进入 了 应 用 全 面 落地 阶段 。 从 中 央 到 地 方 的 各 级 政府 部 
门 均 大 为 支持 云 计算 产业 发 展 ， 将 云 计算 纳入 “十 二 五 ”规划 重点 技术 。 在 北京 、 上 海 、 深 
圳 、 杭 州 、 无 锡 5 个 试点 城市 的 带动 下 ,国内 涌现 出 了 一 大 批 的 云 计算 基地 ,很 多 高 科 撤 园 
区 也 将 云 计 算 列 为 重点 项 目 。 这 些 云 计算 基地 的 创建 为 传统 ICT 巨头 提供 了 更 广阔 的 发 展 空 
间 ， 也 为 更 多 创业 型 企业 提供 了 发 展 机 志 ， RMI PURRERR. RT, UH. KA. E 
力 、 石 化 等 大 型 行业 企业 对 安全 性 要 求 较 高 ， 比 较 看 重 云 计算 的 大 规模 数据 处 理 、 海 量 数 据 
安全 存储 等 性 能 及 可 用 性 方面 的 内 容 。 而 中 小 企业 则 更 看 重 云 计算 成 本 、 易 用 性 、 可 管理 、 
易 部 署 方面 的 优势 。 包 括 CRM、ERP、OA、 呼 叫 中 心 、 音 /视频 会 议 在 内 的 传统 ICT 应 用 ， 
正在 越 来 越 多 地 转向 云 计 算 模 式 。 从 当下 的 局 旁 看 ， 云 计算 必 将 给 整个 电子 信息 产业 带 来 突 
飞 猛 进 的 发 展 ， 不 但 更 多 的 中 小 企业 将 会 低 成 本 地 享有 IT 资源， 城市 管理 、 人 金融 、 医 疗 、 教 
育 、 地 理 信 息 等 行业 也 将 推动 云 计算 的 全 面 应 用 。 

伴随 着 云 计 算 产 业 的 快速 发 展 ， 大 量 云 计算 领域 的 专业 书籍 自然 层出不穷 。 从 国内 市 场 上 同 
类 书 的 情况 来 看 ， 有 关 云 计算 的 书籍 品目 系 多 ， 涉 及 的 内 容 也 几乎 圳 插 了 技术 来 构 、 应 用 案例 、 
商业 模式 以 及 运 维 管理 等 方方面面 。 但 从 市 场 上 大 部 分 的 书籍 内 容 上 来 看 ， 现 有 书籍 的 内 容 各 有 
侧重 ， 或 重 技术 而 轻 应 用 ， 或 重 应 用 案例 而 轻 运 维 管理 ， 再 或 是 重 技术 基础 而 轻 商业 模式 ， 所 述 
内 容 较 为 单一 。 而 本 书 从 云 计算 基本 概念 入 手 ， 随 之 介绍 云 计 算 的 商业 模式 ,理论 介绍 逐步 深入 ， 
将 读者 引入 到 云 计 算 的 实现 技术 方面 ， 内 容 全 面 丰 富 、 禾 盖 面 广 ， 涉 及 了 虚拟 化 、 数 据 通 信 、 网 
络 与 运 维 管理 、 安 全 与 认证 管理 等 各 种 主流 的 云 计算 关键 技术 。 此 外 ， 本 书 还 通过 引入 开源 案例 
(基于 OpenStack) 研究 ， 拓 5 展 介绍 了 完整 的 云 计算 生命 周期 管理 。 本 书 尤 其 适合 作为 云 计算 方面 
的 研究 生 课程 参考 教材 。 

本 书 结构 严谨 ， 由 浅 入 深 、 归 纳 条 理 清晰 、 探 讨 系统 深入 ， 符 合 读 者 的 一 般 习 惯 ， 书 中 全 面 
系统 地 介绍 了 云 计算 、 云 计算 技术 及 其 商业 趋势 描述 了 它 的 系统 架构 、 安 全 性 能 、 应 用 情况 、 
商业 运营 以 及 发 展 前 景 ， 讨 论 了 云 计算 的 部 署 及 商业 运 维 的 多 种 解决 方案 。 本 书 共 分 为 7 章 。 第 1 
章 是 引言 。 第 2 章 是 云 计算 业务 ,介绍 了 基于 虚拟 化 和 云 的 I 行业 变 革 、 云 相关 的 商业 模型 以 及 
如 何 向 网 络 运营 商 中 引入 云 技术 。 第 3 章 是 CPU 虚拟 化 ， 主 要 介绍 了 虚拟 化 的 动机 与 上 背景、 计算 
机 的 架构 以 及 虚拟 化 和 系统 管理 。 第 4 章 是 数据 网 络 一 一 云 的 神经 系统 ， 主 要 介绍 了 OSI 参考 模 
型 、IP 协议 族 、IP 网 络 QoS、 广 域 网 的 虚拟 化 技术 、 软 件 定 义 网 络 以 及 正安 全 。 第 5 章 是 网 络 设 
备 ， 主 要 介绍 了 域名 系统 、 防 火 墙 、 NAT 盒 以 及 负载 均衡 器 。 第 6 章 是 现代 数据 中 心 的 云 存 储 与 
结构 ， 主 要 介绍 了 数据 中 心 基础 内 容 和 存储 相关 事宜 。 第 7 章 是 云 内 部 的 和 运营、 管理 与 业务 流程 
编排 ,主要 介绍 了 企业 内 编排 、 网 络 与 运营 管理 、 云 的 编排 与 管理 以 及 认证 与 访问 管理 。 

本 书 主 要 由 即 为 民 、 王 大 鹏 、 陈 红 、 姚 晋 专 翻译 ， 国防 科技 大 学 信息 通信 学院 的 翟 连 政 、 
KEE, KINZ, RH. ER. RE, EMX,. BRB. Ri, REE. MR. RH 
参与 了 本 书 部 分 章节 的 翻译 工作 ， 茶 理 金 、 高 泳 洪 、 王 会 涛 、 李 官 敏 、 陈 林 对 本 书 的 全 部 图 
RHUTTBBHSFIRAARAE, FRE. RM. LER. ERA. HAH. HH=zLF 
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同 兵 对 译 稿 的 初稿 进行 了 审 校 并 参与 部 分 内 容 翻 译 ， 并 更 正 了 不 少 错误 ,在 此 一 并 向 他 们 表 
示 占 心 的 感谢 。 同 时 ， 本 书 是 译 者 在 忠实 于 原 书 的 基础 上 翻译 而 成 的 ， 书 中 的 意见 和 观点 并 
不 代表 译 者 本 人 及 所 在 单位 的 意见 和 观点 。 

由 于 云 计 算 还 在 不 断 完善 和 深化 发 展 之 中 ， 加 之 译 者 水 平 有 限 ， 翻 译 时 间 仓 促 ， 因 而 本 书 番 
译 中 的 错漏 之 处 在 所 难免 ， 尽 请 各 位 专家 和 读者 不 吝 指 正 。 


郎 为 民 
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“如 果 17 世纪 和 18 世纪 早期 是 钟表 的 时 代 ，18 世纪 末 和 19 世纪 是 蒸汽 机 的 时 代 ， 那 么 现在 则 是 


通信 和 控制 的 时 代 。” 

诺 伯 特 ， 维 纳 (摘自 1948 年 版 的 《控制 论 关于 在 动物 和 机 器 中 控制 和 通信 的 科学 》) 

不 幸 的 是 ， 我 们 不 记得 我 们 所 要 描述 事件 的 确切 日 期 ， 只 记得 它 发 生 在 1994 年 秋天 的 某 个 时 候 。 
那 时 ， 宾 儿 法 尼 亚 大 学 的 诺 亚 . 普 里 维 斯 教授 在 贝尔 实验 室 做 了 一 次 令 人 难忘 的 邀请 报告 ， 本 书 的 两 
位 作者 ~ 也 出 席 了 这 次 报告 。 这 次 报告 的 重点 是 ， 建 议 AT&T (当时 贝尔 实验 室 是 它 的 一 部 分 ) 除了 提 
供电 信服 务 之 外 ， 还 应 通过 运营 数据 中 心 ， 回 其 他 的 公司 提供 计算 服务 。“ 他 们 只 需要 连 上 他 们 的 终 
端 ， 就 可 以 获得 开 服 务 。 他 们 只 需要 文 付 一 定 的 费用 ， 就 可 以 摆脱 自己 运营 机 天 、 升 级 软件 等 各 种 运 
营 与 维护 所 融 来 的 问题 ”。 | 

ASAE FPR BR BE UR A TE BE AE A, MAE N 28 SE Si Se AP a a a A, EL ft as A — 
家 成 功 的 软件 公司 计算 机 指挥 与 控制 的 创始 人 兼 首席 执行 官 ， 他 的 提议 对 研究 人 员 来 说 是 较为 超 
前 的 。 当 时 ，AT&T 的 核心 业务 是 电信 业务 。AT&T 的 主要 企业 客户 需要 购买 用 户 端 设 备 (lO, SA 
的 分 支 交 换 机 和 呼叫 中 心 支 持 软件 运行 所 需 的 机 震 ) 。 也 就 是 说 ， 企 业 需要 购买 设备 自己 运行 ， 而 不 是 
将 其 外 包 给 网 络 提 供 商 ! 

大 多 与 会 者 虽然 看 到 了 这 一 想法 的 优点 ， 但 无 法 立即 将 其 与 他 们 的 日 常 工 作 联 系 在 一 起 ， 更 重要 
的 是 ， 他 们 无 法 将 其 与 公司 所 确定 的 经 营 计 划 联 系 在 一 起 。 而 且 ， 当 时 贝尔 实验 室 正 在 将 他 们 的 计算 
环境 从 大 型 机 和 Sun 工作 站 托管 的 UNIX 编程 环境 迁移 到 支持 微软 办 公 软 件 的 个 人 计算 机 上 。 虽 然 我 们 
不 喜欢 这 种 变化 《因为 我 们 是 伴随 着 UNIX 操作 系统 成 长 起 来 的 人 ) ， 但 是 我 们 被 告知 ， 就 办 公信 息 技 
AMA, ， 这 就 是 行业 发 展 的 方向 。 但 如 果 这 样 ， 那 么 企业 将 向 完全 相反 的 方 回 发 展 一 一 把 计算 机 放 在 
每 名 员工 的 手中 。 普 里 维 斯 教授 并 没有 和 否定 个 人 计算 机 的 发 展 步 伐 ; 而 是 更 看 重 企业 业务 ， 那 些 需 要 
在 目 己 的 工作 站 上 维护 工资 数据 库 之 类 的 企业 用 户 。 

在 那 次 会 议 中 ， 人 们 针对 具体 的 细 市 问题 进行 了 热烈 的 讨论 。 普 里 维 斯 教授 援引 了 虚拟 化 和 大 规 
模 并 行 处 理 技术 的 成 果 ， 这 些 足 以 实现 他 所 描述 的 愿景 。 虽 然 ， 这 些 论据 是 令 人 信服 的 ,但 是 AT&T 
的 核心 业务 仍然 是 网 络 ， 而 网 络 则 主要 集中 在 电信 业务 上 。 

不 过 ， 电 信 业 务 仍然 由 软件 提供 ， 其 至 电话 交换 机 也 是 由 计算 机 控制 的 外 围 设备 。 在 20 世纪 90 年 
代 ， 虚 拟 电 信和 网 络 服务 ( 例如， 软件 定 义 网 络 ) 没有 与 数据 网 络 中 发 展 的 同名 业务 (相关 内 容 将 在 本 
书 第 4 章 讨论 ) 相 混淆 ， 而 是 出 现在 被 称 为 “智能 网 络 ” 上 的 纯 软 件 和 数据 通信 平台 上 。 正 是 在 后 者 
的 基础 上 ， 普 里 维 斯 教授 认为 可 以 提供 计算 服务 。 总 之 ， 这 个 想法 是 将 数据 通信 和 集中 化 的 强大 计算 
中 心 结合 在 一 起 ， 所 有 这 些 都 在 一 个 大 型 的 电信 公司 的 中 央 指 挥 和 控制 之 下 运行 。 这 让 当时 所 有 与 会 
者 都 对 此 产生 了 浓厚 的 兴趣 。 

将 计算 机 作为 公用 设施 的 想法 并 不 新 鲜 ， 道格拉斯 WAGE AZAR (Douglas F. Parkhill) 在 其 1966 年 
的 书 ” 中 就 提 到 了 这 一 点 。 

不 过 最 后 ， 我 们 都 没 能 把 这 一 想法 呈 递 给 公司 的 高 级 管理 层 。1994 年 电信 业 所 经 历 的 时 代 最 有 可 
能 被 认为 是 “有 趣 的 ”，AT&T 的 业绩 并 不 好 ， 原 因 很 多 。 尽 管 贝尔 实验 室 处 于 所 有 相关 技术 发 展 的 

© Igor Faynberg 和 Hui-lan Lu 当时 是 贝尔 实验 室 41 领域 (架构 领域 ) 技术 团队 的 成 员 。 


O 由 于 地 方 贝尔 运营 公司 和 其 他 本 地 有 商务 往来 的 运营 商 也 开始 在 服务 市 场 上 与 AT&T 展开 竞争 ， 所 以 他 们 不 愿意 从 
AT&T 集团 的 网 络 系统 部 门 (该 部 门 是 AT&T 下 属 的 一 家 生产 性 的 单位 ) 购买 设备 。 
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前 沿 ， 但 将 这 些 技术 推荐 给 企业 则 是 另 一 个 问题 ， 特 别 是 在 不 景气 的 时 期 ， 提 出 彻底 改变 业务 模式 的 
建议 。 

大 约 1 年 后 ，AT&T 宣布 解体 。 本 书 的 两 位 作者 与 贝尔 实验 室 的 大 部 分 人 员 一 起 ， 去 了 后 来 成 为 时 
讯 科 技 (Lucent Technologies) 的 设备 制造 公司 ，10 年 后 ， 与 阿尔 卡特 合并 组 建 阿 尔 卡 特 于 讯 《Alcatel - 
Lucent ) 。 

大 约 在 同一 时 间 ， 亚 马 逊 (Amazon) 推出 了 一 项 名 为 弹性 计算 云 (Elastic Compute Cloud, EC2) 
的 服务 ， 它 几乎 完美 地 实现 了 普 里 维 斯 教授 曾 向 我 们 描述 的 内 容 。 世 界 各 地 的 企业 用 户 只 需 支 付 一 定 
的 费用 后 ， 就 可 以 在 “ 云 ”( 或 更 准确 地 说 ， 在 其 中 一 个 亚马逊 的 数据 中 心 ) 中 创建 虚拟 化 的 机 器 并 
在 这 些 机 器 上 部 署 各 种 软件 。 而 且 ， 不 仅 如 此 ， 这 些 机 器 还 是 弹性 的 : 随 着 用 户 对 计算 能 力 需 求 的 增 
长 ， 机 器 的 能 力也 随 之 提高 ， 直 到 满足 用 户 的 需求 ， 同 时 增加 适当 的 成 本 ; 当 需 求 下 降 时 ， 计 算 能 力 
也 随 之 降低 ， 同 时 成 本 费用 也 随 之 减少 。 因 此 ， 企 业 不 需要 投资 购买 和 维护 计算 机 ， 而 只 需要 为 所 使 
用 的 计算 能 力 支 付 一 定 的 费用 ， 并 且 可 以 根据 需要 获得 尽 可 能 多 的 计算 能 力 ! 

从 哲学 的 角度 来 看 : 可 以 使 用 辩证 法 来 看 待 计算 形式 的 发 展 。 如 图 1. la 所 示 ， 将 基于 大 型 机 的 计 
算 作 为 论题 ， 业 界 已 经 发 展 到 基于 个 人 工作 站 的 计算 一 一 作为 对 立 面 。 但是， 得 益 于 数据 网 络 、 分 布 
式 处 理 和 软件 自动 化 等 技术 的 发 展 ， 这 种 螺旋 式 的 发 展 带 来 了 一 种 新 形式 的 “ 云 " ， 作 为 这 两 者 的 结合 
体 ， 其 中 这 种 看 似 集中 的 按 需 计算 所 带 来 的 便利 性 是 与 用 户 计算 环境 的 自主 性 相 结合 的 。 另 一 种 螺旋 
RER (将 在 本 书 第 2 章 中 详细 介绍 ) 如 图 1. 1b 所 示 ， 它 展示 了 公有 云 如 何 成 为 论题 “传统 IT 数据 
中 心 ” 的 对 立 面 ， 邀 请 外 包 开 发 (通过 “影子 IT” 和 虚拟 私有 云 ) 。 对 应 的 结合 体 是 私有 云 ， 其 中 云 
将 计算 放 回 到 企业 内 部 但是， 是 以 一 种 非常 新 前 的 形式 。 
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论题 : 大 型 机 计算 











a) 从 大 型 机 到 云 
Se ae RC a Boi reer, 
从 这 个 意义 上 ， 我 们 准备 介绍 一 些 正式 的 定义 ， 这 些 定义 已 经 得 到 了 普遍 的 认同 ， 从 而 形成 了 一 
个 标准 。 这 些 定义 是 由 美国 国家 标准 与 技术 研究 院 (National Institute of Standards and Technology, NIST) 
制定 和 发 布 ” 的 。 首 先 ， 云 计算 被 定义 为 一 种 模式 “用 于 实现 对 可 配置 计算 资源 共享 池 ( 例 如， 网络 、 
服务 器 、 存 储 、 应 用 程序 和 服务 ) 进行 无 处 不 在 、 方 便 、 按 需 的 网 络 访问 ， 而 只 需 投 入 极 少 的 管理 工 
作 或 与 服务 提供 商 的 沟通 ， 就 可 以 实现 对 这 些 计算 资源 的 快速 配置 和 发 布 ” 。 这 种 云 模式 由 5 个 基本 特 
征 、3 种 服务 模式 和 4 种 部 署 模型 组 成 。 
5 个 基本 特征 如 图 1. 2 所 示 。 


b) 从 IT 数 据 中 心 到 私有 云 








— 


we... % 
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人 中 按 需 自助 服务 。 用 户 可 以 单方 面 配置 计算 能 力 ， 
例如 ， 根 据 需 要 自动 配置 服务 器 时 间 和 网 络 存储 ， 
而 无 须 与 任何 服务 提供 商 进行 沟通 。 


(例如 ， 存 储 、 处 理 、 带 宽 
和 活跃 的 用 户 账户 ) ， 来 自 
动 地 控制 和 优化 资源 的 使 用 。 A 
资源 的 使 用 是 可 监 、 可 控 和 


以 使 用 各 种 异 构 的 瘦 客 户 端 或 胖 客 户 
端 平台 (例如 ， 移 动 电话 、 平 板 电 脑 、 
笔记 本 电脑 和 工作 站 ) 来 进行 访问 。 


@ 可 度量 的 服务 。 云 系统 可 
以 在 某 种 抽象 程度 上 使 用 适 四 广泛 的 网 络 访问 。 可 以 在 整个 网 络 
合 这 种 服务 类 型 的 计量 能 力 @ 上 通过 标准 的 机 制 获得 计算 能 力 ， 可 


可 实时 上 报 的 ， 并 且 这 对 被 N 
使 用 服务 的 用 户 和 提供 商 来 。 
说 都 是 透明 的 。 、 ”@ 资 源 池 。 提 供 商 将 计算 资源 汇集 在 一 
ba 起 通过 多 租户 模式 为 多 个 用 户 提供 服务 ， 
= ) 所 提供 的 各 种 物理 和 虚拟 资源 会 根据 用 
@ 快 速 弹性 的 扩展 。 可 以 对 计算 能 N 3 到” 广 的 需求 动态 地 进行 分 配 和 再 分 配 。 这 
ái 体现 了 一 种 位 置 无 关 性 的 感觉 ， 也 就 是 
hi 涪 ， 用 户 一 般 无 法 掌控 或 了 解 被 提供 的 
情况 下 可 以 契合 需求 自动 地 实现 向 。 说 ， | 
外 或 向 内 的 快速 扩展 。 从 用 户 的 角 a 资源 的 确切 位 置 ， 但 是 可 以 在 一 个 较 高 
度 来 看 ， 可 用 的 配置 能 力 似乎 是 无 的 抽象 层次 (例如 ， 国 家 、 州 或 数据 中 


限 的 ， 可 以 在 任意 时 间 占 有 任意 数 心 ) 上 指定 服务 资源 的 位 置 。 
量 的 计算 能 力 。 





现在 众所周知 的 3 种 云 计算 服务 模式 是 软件 即 服务 CSuflgire -as-a-Service，SaaS ) 、 平 台 即 服务 
( Platform-as-a-Service, PaaS) 和 基础 设施 即 服务 ( Infrastructure-as-a-Service, IaaS), NIST 将 其 定义 
如 下 : 

1) 软件 即 服务 (SaaS). 。 向 用 户 提供 的 能 力 是 使 用 提供 商 在 云 基础 设施 上 运行 的 应 用 程序 。 这 些 
应 用 程序 可 以 通过 各 种 客户 端 设 备 进行 访问 ， 这 些 客户 端 设备 可 以 是 瘦 客 户 端 接 口 ， 例 如 ， 网 络 浏 览 
器 (如 基于 Web 的 电子 邮件 ) 或 应 用 程序 接口 。 用 户 不 需要 管理 或 控制 底层 的 云 基础 设施 ， 包 括 网 
络 、 服 务 器 、 操 作 系 统 、 存 储 ， 甚 至 个 人 应 用 程序 功能 ， 唯 一 可 能 的 例外 是 需要 用 户 设置 有 限 的 用 户 
定制 应 用 程序 配置 。 

2) 平台 即 服务 (PaaS) 。 向 用 户 提 供 的 能 力 是 在 云 基础 设施 上 部 署 用 户 创建 的 应 用 程序 ， 或 者 获 
取 使 用 提供 商 支 持 的 编程 语言 、 库 、 服 务 和 工具 构建 的 应 用 程序 。 用 户 不 需要 管理 或 控制 底层 的 云 基 
础 设施 ， 包 括 网 络 、 服 务 器 、 操 作 系 统 或 存储 ， 但 是 需要 控制 所 部 署 的 应 用 程序 ， 并且 可 能 需要 设置 
应 用 程序 托管 环境 的 配置 。 

3) 基础 设施 即 服务 (JaaSs) 。 向 用 户 提 供 的 能 力 是 配置 处 理 、 存 储 、 网 络 和 其 他 的 基础 计算 资源 ， 
使 用 户 能 够 在 其 上 部 署 和 运行 任意 的 软件 ， 这 些 软件 可 以 包括 操作 系统 和 应 用 程序 。 用 户 不 需要 管理 
或 控制 底层 的 云 基 础 设施 ， 但 是 需要 控制 操作 系统 、 存 储 和 所 部 署 的 应 用 程序 。 并 且 ， 在 选取 网 络 组 
件 ( 例 如， 主机 防火 墙 ) 上 可 能 需要 进行 有 限 的 管控 。 

随 着 时 间 的 推移 ， 其 他 的 服务 模式 已 经 出 现 ， 不 过 这 些 服务 模式 更 多 的 是 出 现在 与 营销 相关 的 文 
献 中 。 但 是 ， 著 名 的 “伯克利 的 云 计 算 " 的 作者 选择 “ 避 开 诸如 “X 即 服务 (X as a Service, XaaS)’ 
这 样 的 术语 ”， 因 为 难以 对 它们 之 中 所 存在 的 确切 差异 达成 一 致 ， 也 就 是 说 ， 对 X 所 代表 的 某 些 服务 的 
价值 之 间 的 差异 难以 认同 。 

4 种 云 部 署 模型 由 NIST 定义 如 下 : 

1) 私有 云 。 这 类 云 基础 设施 是 由 包含 多 个 用 户 ( 例 如， 业务 部 门 ) 的 单个 组 织 专用 的 。 它 可 由 该 
组 织 、 第 三 方 或 它们 之 间 的 某 种 组 合 所 拥有 、 管 理 和 运营 。 并 且 ， 它 可 能 有 也 可 能 没有 特定 的 场所 。 

2) 社区 云 。 这 类 云 基 础 设施 是 由 具有 共同 关注 项 目 ( 例 如， 任务、 安全 要 求 、 政 策 和 合 规 性 注意 
事项 ) 的 组 织 内 的 特定 的 用 户 群 体 专用 的 。 它 可 由 该 社区 中 的 一 个 或 多 个 组 织 、 第 三 方 或 它们 之 间 的 
某 种 组 合 所 拥有 、 管 理 和 运营 。 并 且 ， 它 可 能 有 也 可 能 没有 特定 的 场所 。 


© ”援引 自 NIST SP 800-145, p.2. 


云 计算 技术 与 商业 趋势 


3) 公有 云 。 这 类 云 基 础 设施 向 普通 公众 开放 使 用 。 它 可 由 商业 、 学 术 或 政府 组 织 ， 以 及 它们 之 间 
的 某 种 组 合 所 拥有 、 管 理 和 运营 。 它 存在 于 云 提供 商 的 场所 中 。 

4) 混合 云 。 这 类 云 基础 设施 是 由 两 个 或 多 个 不 同 的 云 基 础 设施 (私有 云 、 社 区 云 或 公有 云 ) 组 成 
的 ， 其 中 各 个 云 基础 设施 依然 保持 独特 的 实体 ， 只 是 按照 标准 化 或 专用 的 技术 绑 定 在 一 起 ， 从 而 实现 
数据 和 应 用 程序 的 可 移植 性 〈 例 如 ， 用 于 云 之 间 负 载 均衡 的 云 爆发 )。 

云 计算 不 是 一 种 单一 的 技术 ， 而 是 一 种 业务 的 发 展 ， 它 的 实现 得 益 于 多 个 学 科 : 计算 机 体系 结构 、 
操作 系统 、 数 据 通信 以 及 网 络 和 运营 关联 。 正 如 将 要 看 到 的 那样 ， 最 后 一 种 学 科 伴随 着 网 络 已 经 存在 
了 很 长 的 时 间 ， 只 不 过 云 计算 的 引入 将 其 发 展 自然 地 推 向 了 一 个 新 的 方向 ， 再 次 验证 了 我 们 从 诸 但 特 
维 纳 这 本 书 中 引用 的 ， 作 为 本 书 引 语 的 那 句 话 。 

正如 本 书 第 2 章 所 述 ， 云 计算 已 经 对 信息 技术 行业 产生 了 革命 性 的 影响 ,电信 行业 也 是 如 此 。 电 
言 运营 商 要 求 供应 商 只 提供 软件 ， 而 不 是 “盒子 ” 。 在 行业 中 已 经 有 几 项 相关 的 标准 化 规范 ， 或 许 更 重 
要 的 是 , 已 经 有 了 一 些 开源 软件 包 来 构建 云 环 境 。 

在 标准 化 之 前 ， 自 然而 然 的 是 大 量 的 研究 和 开发 方面 的 工作 。 在 2011 年 ， 本 书 作者 之 一 ”在 阿尔 
卡特 朗讯 成 立 了 CloudBand 产品 部 门 ， 在 贝尔 实验 室 研 究 工 作 的 帮助 下 ， 开 发 出 了 电信 云 平台。 正 是 在 
CloudBand 的 背景 下 ， 本 书 三 位 作者 见面 ， 并 产生 了 撰写 本 书 的 想法 。 

起 初 ， 我 们 计划 将 本 书 作为 一 本 云 计 算 的 教科 书 。 在 史 带 文 斯 理工 学 院 从 事 开 发 和 教授 相关 方面 
研究 课程 的 经 历 使 我 们 了 解 到 ， 即 使 是 最 聪明 和 最 优秀 的 学 生 ， 在 中 央 处 理 髓 (Central Processing Unit, 
CPU) 虚拟 化 〈 这 个 课程 在 计算 机 体系 结构 或 操作 系统 课程 方面 很 少 被 教授 ) ， 以 及 在 数据 通信 中 的 一 
些 特 定 方面 ， 也 缺乏 足够 的 知识 。 网 络 和 运营 管理 很 少 会 成 为 现代 计算 机 科学 课程 的 一 部 分 。 

事实 上 ,在 业界 类 似 的 知识 空白 似乎 是 普遍 存在 的 ， 因 为 行业 内 的 工程 师 往 往 被 要 求 具 有 很 强 的 
专业 性 ， 专 业 划 分 的 程度 太 细 ， 因 此 我 们 希望 本 书 可 以 通过 提供 一 个 总 体 的 多 学 科 基 础 来 弥补 这 一 
空 日 。 | 

本 书 其 余部 分 的 结构 如 下 : 

1) 第 2 章 主 要 介绍 “是 什么 ”而 不 是 “怎样 做 ” 。 给 出 了 一 些 定 义 ， 并 通过 一 个 网 络 功能 虚拟 化 
的 特殊 案例 研究 描述 了 一 些 相 关 的 业务 考量 。 另 外 ， 介 绍 有 关 云 计算 的 整体 框图 。 至 于 “怎样 做 ” ， 则 
是 以 后 几 章 将 要 介绍 的 内 容 。 

2) 第 3 EFE CPU 虚拟 化 的 原理 。 

3) 第 4 章 专门 介绍 网 络 一 一 云 的 神经 系统 。 

4) 第 5 章 介 绍 网 络 设备 、 云 数据 中 心 和 专用 网 络 的 组 成 部 分 。 

5) 第 6 章 介 绍 现代 数据 中 心 的 整体 架构 及 其 组 成 部 分 。 

6) 第 7 章 审视 云 中 的 运营 和 管理 ， 并 通过 对 OpenStack 的 案例 研究 ， 阐 明 业 务 流程 、 身 份 认证 和 
访问 管理 的 概念 ， 其 中 所 研究 的 案例 一 一 OpenStack ， 是 一 个 流行 的 开源 云 项 目 。 

7) 附录 部 分 对 前 面 讨论 的 主题 细节 进行 深入 的 研究 。 

参考 文献 部 分 (也 是 各 自主 题 的 参考 书目 ) 分 列 在 各 个 章节 的 后 面 。 

从 前 面 所 列 的 这 本 书 的 大 岗 中 ,我们 应 当 注 意 到 ， 有 3 个 基本 的 主题 没有 设置 专门 的 章节 进行 介 
绍 。 而 是 ， 将 其 放 在 其 他 章节 内 讨论 ， 因 为 它们 涉及 了 该 章节 的 主题 。 

其 中 一 个 主题 是 安全 性 问题 。 毫 无 疑问 ， 这 是 唯一 可 能 导致 云 计 算 遭 破坏 的 问题 。 安 全 性 问题 存 
在 很 多 方面 ， 所 以 我 们 认为 应 该 在 各 相关 章节 内 讨论 并 解决 与 各 章节 有 关 的 安全 性 方面 的 问题 。 

男 一 个 没有 “集中 ”介绍 的 主题 是 标准 化 问题 。 同 样 ， 我 们 在 讨论 具体 技术 主题 的 同时 介绍 相关 
标准 和 开源 项 目 。 第 三 个 主题 是 历史 问题 。 在 工程 学 中 众所周知 的 是 ， 很 多 现 有 的 技术 解决 方案 并 不 
是 最 优 的 ， 它 们 的 存在 得 益 于 它们 的 历史 发 展 。 在 一 个 学 科 课 程 的 讲授 过 程 中 ， 最 重要 的 是 要 将 这 类 
问题 指出 来 ,我们 已 经 尽力 做 到 了 这 一 点 。 同 样 ， 我 们 将 在 所 要 介绍 的 每 一 个 技术 背景 中 ， 指 出 这 一 
问题 。 
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在 本 章 中 ,将 对 云 计算 的 商业 影响 进行 评估 。 

首先 从 概括 代行 业 转 型 的 过 程 开始 ， 其 发 展 历 程 跨越 的 阶段 较 少 。 首 先是 虚拟 化 ， 其 次 是 同 云 装 
型 。 正 如 人 们 看 到 的 那样 ， 这 一 过 程 是 以 辩证 螺旋 的 形式 发 展 的 ， 其 中 受到 不 同 发 展 方 回 相互 冲突 所 
带 来 的 影响 。 行 业 发 展 趋 势 正 将 计算 与 企业 相 分 离 ， 从 而 诞生 “影子 IT” 和 虚拟 私有 云 。 最 终 ， 这 一 
发 展 又 会 以 私有 云 的 形式 将 计算 市 回 到 转型 的 企业 IT 领域 中 。 

接 下 来 ， 不 谈 企 业 ， 而 是 只 考虑 电信 业务 ， 同 样 这 类 业务 也 经 历 了 类 似 的 过 程 ， 即 众所周知 的 网 
络 功能 虚拟 化 (Network Functions Virtualization，NFV ) 。 如 今 ， 这 种 网 络 功能 虚拟 化 正在 发 展 出 它 目 己 
的 私有 云 (本 书 的 作者 都 已 参与 了 这 一 过 程 ) 。 

当然 ， 云 转型 必然 会 影响 到 其 他 的 业务 部 门 ， 而 本 书 的 目的 随 着 本 书 内 容 的 不 断 完 善 ， 也 表明 了 
此 时 已 经 把 握 到 了 云 对 行业 影响 的 这 条 主线 。 正 如 适用 于 物理 场 (例如 力学 ) 的 数学 方程 ， 同样 可 以 
适用 于 其 他 领域 (例如 电磁 场 ) 一 样 ， 通 用 的 行业 模式 也 必然 适用 于 各 种 行业 。 云 的 影响 将 在 许多 其 
他 行业 中 被 人 们 看 到 和 感受 到 。 


2.1 基于 虚拟 化 和 云 的 IT 行业 转型 


在 过 去 的 10 年 中 , 开行 业已 经 经 历 了 大 规模 的 转型 ， 这 对 业务 和 行业 方面 的 新 应 用 和 服务 的 引入 
产生 了 巨大 的 影响 。 要 想 了解 发 生 了 什么 ， 先 来 看 一 下 以 前 的 情况 。 

云 计 算 之 前 ， 开 发 基于 软件 的 产品 和 服务 需要 在 前 期 投入 高 兄 的 资金 ， 投 资 失 败 的 风险 很 高 ， 产 
铝 人 市 的 进度 缓慢 ， 而 且 还 需要 在 基础 设施 的 运营 和 维护 方面 持续 投入 运营 成 本 。 开 发 人 员 通 常 负责 
整个 系统 的 设计 和 实施 : 从 物理 基础 设施 〈 例 如 ， 服 务 器 、 交 换 机 、 存 储 器 等 ) 到 软件 可 靠 性 基础 架 
构 (例如 ， 集群、 高 可 徘 性 和 监控 机 制 ) 和 通信 和 链 路 的 选择 一 一 也 就 是 将 业务 逻辑 转换 为 应 用 程序 的 
所 有 方面 。 要 将 特定 服务 的 应 用 部 署 在 专用 的 基础 设施 上 ， 还 要 为 每 一 个 服务 制定 单独 的 容量 和 能 力 
规划 。 

以 一 个 实际 的 情况 为 例 。2000 年 ， 本 书 的 一 位 作者 -创建 了 一 家 名 为 “Zing 互动 媒体 ”的 公司 ， 
该 公司 的 业务 是 让 广播 听众 通过 简单 的 语音 指令 与 收音 机 上 听 到 的 内 容 进 行 交互 。 想 想 在 收音 机 上 听 
到 一 首 非 常 棒 的 歌曲 ， 或 是 你 感 兴趣 的 广告 时 ， 设 想 一 下 ， 如 何 用 简单 的 语音 指令 让 你 能 够 订购 这 首 
歌 或 同 广告 商 进 行 互动 。 在 当今 世界 ， 这 可 以 作为 一 种 基于 云 SaaS 解决 方案 实现 的 经 典 案例 。 

但 是 在 2000 年 ， 作 者 的 公司 不 得 不 做 很 多 事情 来 创建 这 个 服务 。 首 先 ， 当 然 是 开发 实际 的 产品 来 
提供 服务 。 但 在 这 之 前 ， 最 重要 的 还 是 需要 投入 大 量 的 资金 ， 而 这 些 对 最 终 用 户 来 说 是 不 可 见 的 ”: 

1) 在 托管 网 站 上 租用 空间 [在 这 种 情况 下 , 在 ATAT 托管 设施 上 租用 了 一 个 安全 的 空间 (俗称 一 
i T") o 

2) 预测 峰值 使 用 量 并 为 服务 开发 元 余 方 案 。 

3) 指定 满足 此 容量 和 功能 计划 所 需 的 服务 器 的 技术 要 求 〈 其 中 涉及 大 量 的 购物 功能 ) 。 

4) 协商 供应 商 和 文 持 合同 ， 并 购买 和 安装 足够 的 服务 器 以 满足 该 容量 和 功能 计划 (其 中 有 些 服务 
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器 将 不 可 避免 地 处 于 空闲 状态 ) 。 

5) 租用 专用 TI 线路 连接 到 我 们 的 “第 子 ”， 并 支付 其 全 部 的 容量 费用 ， 无 论 实 际 是 否 使 用 和 具 
体 使 用 了 多 少 。 

6) 购买 网 络 设备 〈 交 换 机 、 电 缆 等 ) 并 将 其 安装 在 我 们 的 “和 党 子 ” 中 。 

7) 在 服务 器 上 购买 并 安装 软件 〈 操 作 系统 、 数 据 库 等 ) 。 

8) 购买 和 安装 负载 均衡 器 、 防 火 墙 和 其 他 网 络 设备 ” 。 

9) 聘用 一 个 由 网 络 专业 人 员 、 系 统管 理 员 、 数 据 库 管 理 员 等 组 成 的 IT 团队 来 维护 这 套 设 施 。 

10) 部 署 和 维护 其 中 唯一 用 来 实际 提供 Zing 交互 媒体 服务 的 软件 。 

需要 注意 的 是 ， 这 笔 投 资 具 有 巨大 的 前 期 成 本 。 这 是 在 局 动 服务 之 前 需要 投入 的 ， 并 且 与 产品 没 
有 直接 的 关系 。 出 于 必要 性 ， 这 笔 投资 是 以 高 峰 使 用 模式 考虑 的 ， 最 少 也 是 以 中 等 程度 的 使 用 情况 进 
行 考 虑 的 。 即 使 采取 了 所 有 的 预防 措施 ， 这 类 投资 也 是 属于 基于 知识 性 的 猜测 。 此 外 ， 随 着 服务 的 成 
H, 扩展 系统 需要 规划 和 较 长 的 交 货 时 间 : 购买 的 服务 需 需 要 送 任 时间 ， 访 问 托管 网 站 需要 规划 和 批 
准 ， 并 且 ， 网 络 提供 商 需 要 几 周 的 时 间 才 能 激活 新 订购 的 通信 和 链 路 。 

稍 后 再 回 到 这 个 例子 ,来 描述 今天 如 何 使 用 云 部 署 我 们 的 服务 。 

这 个 例子 代表 了 企业 开 部 门 在 部 署 服务 (例如 ， 电 子 邮 件 、 虚 拟 专用 网 络 或 企业 资源 规划 系统 ) 
时 必须 处 理 的 问题 。 事 实 上 ， 很 多 大 型 公司 的 开发 部 门 也 都 面临 着 同样 的 问题 。 

当 开 始 一 个 新 项 目 时 ， 开 发 经 理 需 要 遵循 以 下 步骤 : 

1) 进行 总 体 成 本 估算 〈 存 在 许多 不 确定 性 ) 。 

2) 批准 预算 和 空间 以 托管 服务 器 和 其 他 设备 。 

3) 撰写 新 硬件 的 购买 请 求 。 

4) 通过 采购 部 门 购 美 服务 右 ( 可 能 需要 3 个 月 左右 的 时 间 )。 

5) 雇佣 支持 团队 直到 服务 器 安装 和 配置 结束 、 安 全 策略 部 署 完毕 ， 以 及 最 后 局 用 连接 。 

6) 安装 操作 系统 和 其 他 软件 。 

7) 开始 开发 实际 的 增值 软件 。 

8) 当 需 要 额外 的 设备 或 外 部 软件 时 返回 步骤 1) 。 

当 需 要 测试 时 ， a ep ening ne ged 一 个 典型 的 例子 : 当 
软件 产品 需要 进行 大 规模 的 压力 测试 时 ， 整 个 基础 设施 必须 到 位 ， 等 待 测 试 ， 这 可 能 只 在 一 个 星期 其 
至 一 个 月 内 仅仅 运行 几 个 小 时 。 

反 过 来 ， 看 一 下 如 何 使 用 带 有 私有 云 设 置 的 云 以 及 所 谓 的 “影子 IT” 来 解决 类 似 的 问题 。 

需要 注意 的 是 ， 如 今 ， 上 述 过 程 已 经 得 到 了 精简 ， 从 而 使 开发 人 员 和 服务 提供 商 只 需要 关注 他 们 
所 创造 的 增值 部 分 。 这 种 转变 的 实现 得 益 于 IT 转型 成 为 一 种 新 的 做 事 方式 。 两 大 主要 的 推动 力 相 继 来 
到 : 第 一 是 虚拟 化 ， 第 二 是 云 本 号 。 

虚拟 化 (在 下 一 章 将 进行 详细 介绍 ) 实际 上 已 经 出 现 很 多 年 了 ， 只 是 最 近 才 被 T 经 理 们 “重新 发 
现 ”， 他 们 希望 便 此 来 降低 成 本 。 简 单 来 说 ， 虚拟 化 是 通过 硬件 的 复 用 来 整合 计算 。 人 例如， 如果 一 家 公 
司 拥有 10 台 硬 件 服 务 器 ， 每 台 运 行 目 己 的 操作 系统 和 一 个 CPU 利用 率 相 当 低 的 应 用 程序 ， 那么 虚拟 化 
技术 将 可 以 使 用 一 个 或 两 个 强大 的 服务 胡来 蔡 换 这 10 台 服 务 器 ， 而 不 需要 让 软件 产生 任何 的 变化 或 对 
高 性 能 的 发 挥 造成 任何 的 影响 。 在 下 一 章 将 看 到 ， 虚 拟 化 的 关键 是 虚拟 机 管理 程序 ， 它 模拟 了 硬件 环 
境 ， 以 便 运 行 在 它 上 面 的 每 个 操作 系统 和 应 用 程序 “认为 ”它们 是 在 自己 的 服务 器 上 运行 。 

因此 ， 可 以 将 运行 在 未 被 充分 利用 的 专用 物理 服务 器 ”上 的 应 用 程序 逐渐 转移 到 虚拟 化 的 环境 中 ， 
首先 是 服务 器 整合 。 因 此 ， 只 需要 购买 和 维护 较 少 的 服务 器 即 可 ， 从 而 节省 资本 支出 (Capital Expendi- 
ture, CapEx) 和 运营 支出 (Operational Expenditure，OpEx) 。 考 虑 到 在 过 去 典型 IT 预算 中 有 2/3 将 被 用 
于 维护 ， 因 此 可 以 认为 这 是 一 项 重大 的 成 就 。 其 他 的 好 处 还 包括 对 可 用 性 、 灾 难 恢复 和 有 灵活 性 的 改进 


O Tl 是 美国 的 一 种 高 数据 速率 (1.544 Mbit/s) 传输 业务 ， 可 从 电信 运营 商 处 租用 。 它 基于 最 初 由 贝尔 实验 室 开 发 的 了 载 
波 系统 ， 并 部 署 在 北美 和 日 本 。 欧 洲 基 于 此 推出 了 后 续 上 载波 系统 即 El 服务 ) ， 欧 洲 的 EL 业务 可 以 提供 2. 048Mbit/s 
的 数据 速率 。 

O 将 在 第 5 章 讨 论 网 络 设备 。 

O 如果 服 务 器 上 的 应 用 程序 在 典型 的 X86 处 理 器 上 的 平均 利用 率 为 5% ~10% ， 则 人 们 认为 该 服务 器 是 未 充分 利用 的 。 
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(因为 部 署 虚拟 服务 器 要 比 部 署 物理 服务 器 快 得 多 ) 。 

这 些 改变 为 服务 提供 商 带 来 了 极 大 的 收益 ， 而 对 IT 服务 的 消费 者 来 说 则 和 以 前 的 体验 在 很 大 程度 
上 没有 什么 不 同一 一 因为 刚才 描述 的 虚拟 化 是 静态 的 。 运 行 的 服务 器 越 少 ， 利 用 率 越 高 。 虽 然 这 是 可 
以 确定 的 重要 一 步 , 但 是 它 并 没有 改变 消费 计算 资源 的 基本 复杂 性 。 

云 是 向 前 迈 出 的 重要 一 步 。 云 提供 给 代行 业 的 是 能 够 转向 到 具有 最 少 的 前 期 投资 和 最 低 风 险 的 
“服务 为 中 心 ” 的 “ 按 需 付费 ”业务 模式 。 开 发 新 应 用 的 个 人 和 企业 可 以 从 低 成 本 的 基础 设施 实际 上 
无 限 的 规模 中 受益 ， 从 而 允许 用 户 只 为 实际 使 用 的 资源 付费 。 此 外 ， 云 计算 基础 设施 “抽象 化 ， 可 以 
让 用 户 将 100% 的 精力 全 部 花费 在 应 用 程序 的 开发 上 ， 而 不 是 设置 和 维护 一 般 的 基础 设施 。 像 亚马逊 和 
Google 这 样 的 公司 已 经 建立 了 大 规模 、 高 效率 的 云 服务 。 

正如 在 上 一 章 中 看 到 的 那样 ， 从 基础 设施 的 角度 来 看 ， 云 已 经 推出 了 一 种 多 租户 〈 在 同一 物理 基 
础 设施 上 为 许多 用 户 提 供 支 持 )、 弹 性 的 、 配 有 可 编程 接口 (通过 API) 、 全 目 动 化 和 具有 上 自我 维护 能 
力 的 平台 ,而 且 更 重要 的 是 ,这 一 平台 具有 非常 低 的 总 体 拥有 成 本 。 起 初 ， 云 平台 提供 了 计算 和 存储 
等 基本 的 基础 设施 服务 。 近 年 来 ， 云 服务 已 经 升级 到 软件 产品 实施 中 ， 以 提供 越 来 越 多 的 通用 服务 ， 
例如 负载 均衡 即 服务 或 数据 库 即 服务 ， 这 使 得 用 户 可 以 更 加 专注 于 他 们 的 应 用 核心 功能 。 

这 里 以 一 个 例子 来 说 明 这 一 点 。 最 初 ， 云 用 户 只 能 创建 一 个 虚拟 机 。 如 果 该 用 户 需要 数据 库 ， 则 
必须 亲自 购买 、 安 装 和 维护 数据 库 。 这 里 的 一 个 微妙 的 问题 是 许可 证 一 一 通常 ， 购 买 的 软件 许可 证 会 . 
和 有 限 数量 的 物理 机 器 进行 绑 定 。 因 此 ， 当 虚拟 机 被 转移 到 另 一 个 物理 主机 时 ， 该 软件 可 能 不 会 运行 
然而 ， 随 春 数据 库 即 服务 的 出 现 ， 用 户 只 需要 选择 所 选 的 数据 库 并 开始 使 用 它 即 可 。 获 取 数 据 库 软件 
和 相应 许可 证 ， 以 及 软件 的 安装 和 维护 的 任务 ， 现 在 都 是 由 云 提 供 商 来 承担 的 。 类 似 地 ， 为 了 实现 负 
载 平 衡 〈 在 引入 负 载 均衡 即 服务 之 前 ) ， 用 户 需 要 创建 和 维护 要 平衡 的 服务 器 的 虚拟 机 以 及 负载 均衡 器 
本 身 。 正 如 将 在 第 7 章 和 附录 中 看 到 的 那样 ， 当 前 技术 和 云 服 务 只 需要 用 户 指定 服务 器 即 可 ， 在 需要 
的 时 候 这 可 由 云 提供 商 复制 ， 引 入 负载 均衡 器 以 平衡 副本 。 

云 的 最 新 发 展 推动 了 对 应 用 程序 生命 周期 管理 的 支持 ， 提 供 了 通用 服务 来 蔡 代 那些 应 用 程序 本 号 
必须 具备 的 服务 。 此 类 服务 的 例子 包括 目 动 部 署 、 上 自动 规模 缩放 、 应 用 程序 监控 和 自动 修复 。 

例如 ， 在 过 去 ， 应 用 程序 开发 人 员 必 须 创 建 监 控 工 具 作 为 应 用 程序 的 一 部 分 ， 然 后 创建 一 个 算法 
来 决定 是 否 添加 更 多 的 容量 。 如 果 是 这 样 ， 这 些 工具 将 需要 设置 、 配 置 和 上 线 新 的 虚拟 机 和 可 能 的 负 
载 均衡 右 。 类 似 地 ， 这 些 工 具 需 要 判定 应 用 程序 是 否 正常 ， 如 果 不 是 ， 则 通过 创建 新 的 服务 器 、 加 载 
保存 的 状态 并 关闭 失败 的 服务 器 来 局 动 自动 加 密 。 

使 用 新 的 生命 周期 服务 ， 所 有 应 用 程序 开发 人 员 现 在 需要 做 的 只 是 宣布 做 出 这 样 的 决策 规则 ， 并 
让 云 提供 商 的 软件 执行 必要 的 操作 即 可 。 再 次 ， 开 发 人 员 的 精力 只 需要 (也 只 能 ) 集中 在 应 用 程序 本 
刁 的 功能 上 。 

这 背后 的 技术 是 ， 云 提供 商 基本 上 已 经 创建 了 通用 服务 ， 并 为 每 个 服务 提供 了 适当 的 应 用 程序 编 
程 接 口 ( Application Programmer’ s Interface，API) 。 实 际 的 情况 是 ， 所 有 应 用 程序 中 的 共同 功能 已 经 被 
“抽象 化 ”了 ， 也 就 是 将 它们 以 “构建 模块 ”的 形式 提供 。 这 种 类 型 的 模块 化 一 直 是 软件 开发 的 原则 ， 
但 是 以 前 只 能 通过 对 本 地 库 进行 严格 指定 的 过 程 调用 才能 实现 ， 而 如 今 可 以 以 一 种 高 度 分 布 的 方式 来 
完成 ， 构 建 模块 驻 留 在 需要 组 装 它们 的 应 用 程序 之 外 的 机 器 上 。 

图 2.1 说 明了 行业 中 的 这 一 问题 。 在 云 出 现 之 前 ， 实 际 的 增值 应 用 程序 只 是 最 终 用 户 所 看 到 的 冰 
山 一 角 ， 而 在 用 户 看 不 到 的 、 较 大 的 、 不 可 见 的 部 分 中 ， 仍 然 需要 大 量 的 投入 。 

在 行业 中 ， 反 映 这 一 变化 的 具有 代表 性 的 例子 是 Instagram, Facebook 花费 10 亿美 元 收购 了 Insta- 
gramo 在 收购 时 ，Instagram 只 有 11 名 员工 ， 却 管理 着 3000 万 个 用 户 。Instagram 没有 物理 基础 设施 ， 只 
有 3 个 人 被 雇佣 来 管理 亚马逊 云 中 的 基础 设施 。 不 需要 资本 支出 ， 不 需要 采购 和 维护 物理 服务 器 ， 也 
不 需要 为 管理 它们 的 技术 人 员 支 付费 用 ， 等 等 。 这 使 得 公司 在 两 年 内 产生 了 10 亿美 元 的 价值 ， 对 人 力 
或 基础 设施 的 投资 很 少 ， 甚 至 没有 。 大 部 分 的 公司 花费 都 用 在 了 用 户 的 获取 和 保留 方面 。 随 着 Insta- 
gram 的 用 户 越 来 越 多 ， 云 将 允许 Instagram 上 自动 扩展 ， 服 务 能 力 不 断 增长 ， 而 不 会 出 现 服务 暂停 或 中 断 。 

回 到 早期 的 “Zing 交互 媒体 ”的 例子 上 一 一 如 果 这 项 服务 在 今天 被 推出 ， 它 一 定 会 遵循 Instagram 
的 模式 。 没 有 必要 租用 “笼子 "， 购 买 服务 侨 ， 租 用 T 线路 ， 或 者 经 历 其 他 上 述 的 限制 。 取 而 代 之 的 
是 ,我 们 只 需要 专注 于 交互 式 三 播 应 用 程序 本 身 即 可 。 此 外 ， 也 不 需要 雇佣 数据 库 管 理 员 ， 因 为 我 们 
8 
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的 应 用 程序 可 能 会 使 用 数据 库 即 服务 功能 。 最 后 ， 只 需要 雇佣 较 少 的 开发 人 员 ， 因 为 开发 这 样 一 个 强 
大 、 可 扩展 的 应 用 程序 将 与 在 云 提供 商 的 相关 服务 中 定义 生命 周期 管理 规则 一 样 简单 。 
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在 公司 软件 开发 方面 ， 存 在 两 个 趋势 : 影子 IT 和 私有 云 。 

借助 影子 IT 的 趋势 ， 内 部 开发 人 员 在 面 对 是 选择 遵从 上 述 过 程 (与 虚拟 化 相 比 没有 太 大 变化 ) 还 
是 使 用 云 服务 时 ， 通 常会 选择 绕 过 IT 部 门 ， 拿 出 信用 卡 并 开始 在 公共 云 上 开发 。 考 虑 一 下 前 面 讨论 的 
压力 测试 的 例子 一 一 通过 相对 简单 的 逻辑 ， 开 发 人 员 可 以 在 需要 时 以 非常 大 的 规模 运行 此 测试 ,并且 
只 需要 为 实际 的 使 用 进行 付费 。 如 果 需 要 扩大 规模 ， 只 需要 一 个 简单 的 更 改 ， 就 可 以 立即 实现 。 回 顾 
之 前 传统 流程 中 的 步骤 及 其 相关 的 成 本 〈 时 间 和 经 济 方面 ) ， 这 种 方法 能 够 脱颖而出 的 原因 也 就 目 然 变 
得 显而易见 。 

许多 首席 信息 官 (Chief Information Officer, CIO) 已 经 察觉 到 了 这 一 趋势 ， 并 且 认 为 仅 在 他 们 的 数 
据 中心 〈 通 常 被 称 为 私有 云 ， 但 实际 上 并 非 如 此 ) 实施 虚拟 化 仍 是 不 够 的 。 影 子 开 的 风险 很 大 ， 其 中 
就 包括 对 人 员 管 理 的 失控 。 由 于 重要 的 公司 数据 被 复制 到 云 中 ， 所 以 也 存在 着 重大 的 安全 隐患 。 对 关 
键 数据 (将 在 附录 中 详细 介绍 ) 的 访问 问题 尤为 重要 ， 因 为 这 和 背负 涉及 隐私 ， 并 受到 法 规 和 法 律 的 约 
Ro 例如， 美国 健康 保险 便携 性 和 责任 法 案 (US Health Insurance Portability and Accountability Act, 
HIPAA) 有 严格 的 隐私 规则 ， 公 司 必须 遵守 这 些 规则 。 在 保护 数据 访问 的 规则 方面 ， 还 有 一 个 重要 的 
例子 是 美国 法 律 ， 被 称 为 “ 萨 班 斯 -奥克斯 利 法 案 (Sarbanes - Oxley Act，SOX)”， 其 规定 了 所 有 美国 
上 市 公司 董事 会 和 会 计 师 事务 所 的 标准 。 

在 影子 IT 的 威胁 下 ， 这 些 考虑 导致 CI0 采取 了 新 的 方法 。 一 个 是 被 称 为 虚拟 私有 云 的 方法 ， 这 是 
通过 从 云 提供 商 那 获得 一 个 安全 区 域 (一 组 专用 的 资源 ) 来 实现 的 。 这 种 方法 可 以 让 公司 以 受 控 的 方 
式 享受 云 带 来 的 所 有 好 处 ， 公 司 可 以 完全 控制 IT 部 分 的 安全 性 和 成 本 。 服 务 级 协议 和 潜在 的 责任 在 此 
得 到 明确 的 界定 。 

第 二 种 方法 是 在 公司 自己 的 数据 中 心 建立 真正 的 私有 云 。 这 种 方法 的 实现 技术 发 展 很 快 ， 所 以 供 
应 商 已 经 开始 在 软件 产品 中 提供 云 的 全 部 功能 。 本 书 将 在 第 7 音 和 附录 中 详细 讨论 的 一 个 例子 是 ， 开 
发 支持 云 软件 的 开源 项 目 一 一 OpenStack。 借 助 这 样 的 产品 ,企业 IT 部 门 就 可 以 推出 自己 的 数据 中 心 ， 
从 支持 虚拟 化 到 建立 真正 的 云 ， 其 服务 与 云 提供 商 提 供 的 服务 类 似 。 这 些 私 有 云 在 企业 中 提供 内 部 服 
务 ， 具 有 公共 云 的 大 部 分 优势 (虽然 规模 有 限 ) ,但 由 于 云 提供 商 的 利润 被 消除 ， 因 此 实现 了 全 面 控制 
并 最 终 降低 了 成 本 。 

技术 公司 的 发 展 趋势 是 从 公共 云 开 始 的 ， 然 后 在 规模 壮大 后 ， 转 向 真正 的 私有 云 来 节省 成 本 。 最 
著名 的 例子 莫 过 于 Zynga， 这 是 一 家 游戏 公司 ， 开 发 了 Farmville 等 游戏 。Zynga 从 亚马逊 开始 ， 提 供 它 
的 网 络 服务 。 当 游戏 开始 起 步 ， 其 使 用 模式 变 得 可 预测 时 ，Zynga 将 其 转移 到 被 称 为 zCloud 的 内 部 云 
上 ， 并 针对 游戏 需求 进行 了 优化 。 类 似 地 ，eBay 也 已 经 在 7000 SIRF tt EGBA T OpenStack 软件 ， 目 
前 这 款 软件 已 经 拥有 了 95% 的 市 场 份额 。 








由 此 可 见 ， 云 的 好 处 是 相当 明显 的 。 但 云 也 有 缺点 。 

前 面 ， 本 书 已 经 讨论 了 一 些 安全 问题 (将 在 整 本 书 中 着 手 解决 这 些 安全 问题 )。 我 们 很 容易 爱 上 云 
所 带 来 的 简单 性 ， 但 安全 挑战 同样 是 非常 真实 的 ， 在 我 们 看 来 ， 这 些 问 题 不 容 低估 。 

另 一 个 问题 是 控制 硬件 选择 以 满足 可 靠 性 和 性 能 要 求 。 从 心理 学 角度 而 言 ， 让 开发 人 员 放 弃 对 所 
需 服 务 器 的 准确 规格 的 控制 ， 并 放弃 对 哪个 CPU、 内 存 、 外 形 尺寸 和 网 卡 的 选择 使 用 并 不 容易 。 其 实 ， 
这 并 不 仅仅 是 心理 上 的 问题 。 要 让 开发 人 员 在 确定 满足 规范 之 前 ， 只 能 相信 云 基 础 设施 能 够 正确 啊 应 
API 调用 ， 达 到 提供 计算 能 力 的 目的 ， 还 是 比较 难 的 。 在 这 种 情况 下 ， 开 发 和 评估 总 体 软件 模型 以 支持 
高 度 可 靠 和 高 性 能 的 服务 ， 尤 为 重要 。 

正如 将 在 本 书后 面 看 到 的 那样 ， 云 提供 商 通过 添加 功能 来 预 留 特定 (但 是 硬件 通用 的 ) 配置 参数 
(如 CPU 内 核 数 量 、 内 存 大 小 、 存 储 容量 和 网 络 “ 管 道 ”) 来 啊 应 这 一 点 。 

英特尔 等 CPU 供应 商 正 致力 于 解决 这 些 问 题 。 例 如 ， 需 要 一 个 可 预测 CPU 使 用 量 的 应 用 程序 。 直 
到 最 近 ， 在 云 中 ， 仍 然 无 法 以 一 种 比较 精细 的 粒度 来 保证 应 用 程序 会 收 到 什么 ， 这 对 于 实时 应 用 程序 
来 说 可 能 是 一 个 主要 的 问题 。 英 特 尔 正 在 通过 提供 特定 的 API， 人 允许 主机 保证 一 定 比 例 的 CPU 分 配给 
特定 的 虚拟 机 。 通 过 虚拟 机 管理 程序 和 云 提 供 商 的 系统 ， 将 虚拟 机 分 配给 特定 的 处 理 促 或 一 系列 进程 
( 即 所 谓 的 CPU pinning) 来 实现 这 种 功能 ， 供 用 程序 所 使 用 。 

使 用 较 高 的 抽象 层次 ， 可 以 获得 简单 性 ， 但 是 由 于 使 用 了 通用 服务 ， 所 以 个 性 化 的 定制 功能 将 非 
常 有 限 。 和 否则 ， 如 果 不 对 外 提供 API， 那 么 就 无 法 使 用 这 些 功能 。 例 如 ， 如 果 想 要 使 用 指定 供应 商 负载 
均衡 器 的 特定 高 级 功能 ， 那 么 将 无 法 在 通用 云 中 实现 。 而 是 只 能 使 用 云 提供 商 通 过 API 对 外 开放 的 负 
载 均衡 功能 ， 在 大 多 数 情 况 下 ， 甚 至 不 知道 哪个 供应 商 能 够 支持 这 项 服务 。 

这 里 给 出 的 解决 方案 是 降低 抽象 级 。 以 最 后 一 段 为 例 ， 可 以 购买 供应 商 负载 均衡 器 的 虚拟 版 本 ， 
将 其 作为 虚拟 机 ， 作 为 项 目的 一 部 分 ， 然 后 使 用 它 。 换 句 话说 ， 较 高 的 抽象 层次 可 能 无 法 满足 独特 的 
需求 。 
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云 服务 提供 商 ， 如 Google 或 亚马逊 ， 运 行 着 庞大 的 基础 设施 。 据 估计 ，GCoogle 拥有 超过 100 万 台 
物理 服务 提 般 ， 而 亚 马 撑 云 正在 为 150 万 ~200 万 台 虚 拟 机 提供 基础 设施 。 这 些 巨大 的 数据 中 心 是 使 用 
高 度 商 品 化 的 硬件 构建 的 ， 拥 有 非常 小 的 运营 团队 〈 团 队 中 只 有 数 十 人 在 管理 着 所 有 的 Google 服务 
大)， 利 用 自动 化 来 提供 新 的 运营 效率 水 平 。 虽 然 基 础 设施 组 件 本 身 并 不 是 高 度 可 靠 的 (亚马逊 只 提供 
99.95% 的 SLA), 但 以 基础 设施 目 动 化 和 应 用 程序 编程 的 方式 来 利用 这 一 基础 架构 ， 就 可 以 提供 相当 
可 靠 的 服务 (PMN, Google 搜索 引擎 或 Facebook Wall) ， 而 其 成 本 只 有 其 他 行业 类 似 服务 费用 的 一 小 
部 分 。 

云 提 供 了 新 的 基础 设施 效率 和 业务 敏捷 性 水 平 ， 并 通过 新 的 运营 模式 (例如 ， 自 动 化 、 自 助 服务 、 
标准 化 商品 要 素 ) 来 实现 ， 而 不 是 通过 基础 设施 要 素 的 性 能 优化 来 实现 。CapEx 对 硬件 的 投资 不 到 这 
些 基础 设施 总 拥有 成 本 的 20% ， 其 余 的 主要 是 运营 和 许可 成 本 。 云 操作 模式 和 软件 选择 (例如 ,使 用 
开源 软件 ) 可 以 显著 降低 总 体 成 本 一 一 而 不 仅仅 是 在 硬件 上 ， 就 像 虚 拟 化 一 样 。 

让 我 们 简单 看 一 下 云 提供 商 与 软件 和 服务 供应 商 提供 的 业务 模式 ， 分 别 在 后 面 的 小 节 中 介绍 。 


2.2.1 ZHE «ee | 


云 为 其 服务 提供 了 一 种 实用 模型 : 计算 、 存 储 、 应 用 程序 和 操作 。 它 提供 了 一 系列 的 定价 模式 ， 
平衡 了 终端 用 户 的 灵活 性 和 价格 。 灵 活性 越 高 价格 越 高 一 一 无 须 任 何 承 诺 即 可 随时 随地 满足 用 户 需 求 。 
针对 预 留 的 容量 制定 更 好 的 价格 ， 或 者 在 特定 的 时 间 内 保证 提供 一 定 的 使 用 量 ， 这 可 以 让 云 提供 商 更 
好 地 规划 其 容量 。 例 如 ， 在 撰写 本 章 时 ， 在 亚马逊 的 网 站 上 使 用 它 的 定价 工具 ， 了 解 到 在 AWS 中 针对 
中 型 机 笑 的 报价 为 每 小 时 0. 07 美元 ， 用 于 按 需 使 用 。 相 同 机 器 预 留 容量 的 报价 为 0.026 美元 ， 折 扣 
63% 。 此 定价 不 包括 网 络 、 数 据 传输 或 其 他 费用 ”。 












名 ”该 引用 价格 是 在 2015 年 1 月 20 日 获得 的 。 
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更 高 的 价格 是 针对 特殊 服务 收取 的 ， 例 如 前 面 提 到 的 虚拟 私有 云 。 最 后 ， 最 优惠 的 价格 是 现货 定 
价 ， 即 云 提供 商定 义 何 时 提供 所 寻求 的 服务 〈 即 在 供应 商 的 能 力 预 计 未 得 到 充分 利用 的 时 候 ) ， 这 是 离 
线 计算 任务 的 绝 佳 选择 。 对 于 云 提供 商 来 说 ， 这 可 以 确保 实现 更 高 的 资源 利用 率 。 

Wit AWS 引领 了 一 个 有 趣 的 趋势 是 价格 的 不 断 下 降 。 随 着 亚马逊 规模 不 断 扩大 ， 以 及 存储 和 其 
他 成 本 的 下 降 ， 目 前 亚马逊 正 采 取 持 续 降 低 定 价 的 方式 ， 提 高 它 的 竞争 优势 ， 并 为 潜在 的 客户 提供 更 
多 更 有 吸引 力 的 和 案例。 此外， 亚马逊 还 不 断 增 加 创新 服务 ， 例 如 上 述 提 到 的 更 高 层次 的 应 用 程序 抽象 ， 
当然 这 些 服务 会 带 来 新 的 费用 。 额 外 的 费用 主要 用 在 网 络 、 配 置 更 改 和 特殊 的 机 器 类 型 需求 等 方面 。 

对 于 对 云 业 务 方面 感 兴 趣 的 人 士 ， 我 们 强烈 推荐 Joe Weinman 的 相关 著作 ， 该 书 还 提供 了 一 个 有 
用 的 且 非 常 有 趣 的 网 站 ， 其 中 包含 了 一 套用 于 处 理 实用 程序 和 云 计算 的 结构 、 动 态 和 财务 分 析 的 模拟 
TA. 我 们 还 推荐 由 Timothy Chou 发 表 的 一 篇 关于 云 业务 的 论文 ”， 重 点 介绍 了 软件 的 业务 模式 。 


| 


要 构建 私有 云 ，CIO (Chief Information Officer， 首 席 信 息 官 ) 需要 创建 一 个 包含 物理 服务 器 、 存 储 
等 设施 的 数据 中 心 ”然后 ,为 了 将 其 转换 为 云 ， 可 以 选择 从 专 有 供应 商 (如 VMware) 购买 基础 设施 软 
件 或 使 用 开源 软件 。OpenStack (将 在 本 书 第 7 章 做 进一步 介绍 ) 是 一 个 开源 项 目 ， 它 可 以 让 用 户 构建 

一 个 与 亚马逊 AWS 提供 的 服务 类 似 的 云 服 务 。 

尽管 开源 项 目 提 供 的 软件 是 免费 的 ， 但 是 在 具体 的 实践 中 ， 当 涉及 大 型 的 开源 项 目 时 ， 仍 然 需 要 
承担 与 维护 相关 的 费用 。 因 此 ,大 多 数 的 公司 不 喜欢 直接 从 开源 库 中 获取 软件 ， 而 更 愿意 从 提供 支持 
和 维护 〈 如 升级 、bug 修复 等 ) 服务 的 供应 商 处 购买 软件 。 像 Red Hat 和 Canonical 这 样 的 公司 领导 着 
这 一 领域 。 这 些 系统 的 定价 通常 基于 云端 群集 中 使 用 CPU 插 覃 的 数量 。 通 常 ， 费 用 是 按 年 收取 的 年 度 
费用 ， 不 取决 于 实际 使 用 的 指标 。 

此 外 ， 大 多 数 的 公司 使 用 专业 服务 公司 帮助 他 们 建立 (并 经 常 管理 ) 他 们 的 云 环境 。 这 通常 是 根 
据 在 每 个 项 目 上 所 花费 的 时 间 和 物质 的 基础 上 制定 价格 的 。 


2.3 将 云 带 到 网 络 运 营 商 


处 在 云 演进 最 前 沿 的 是 电信 基础 设施 的 转型 。 正 如 前 面 提 到 的 ， 电信 提供 商 (他 们 通常 在 其 各 自 
国家 中 也 受到 相关 部 门 的 监管 ) 提供 了 迄今 为 止 最 可 靠 和 最 安全 的 实时 业务 。100 多 年 来 ， 电 信 设 备 已 
经 从 机 电 交 叉 连接 电话 交换 机 发 展 到 高 度 专业 化 的 数字 交换 机 ， 数 据 交 换 机 使 现 有 的 电信 网 络 成 为 可 
能 。 此 外 ， 这 些 交换 机 已 经 与 运行 操作 和 管理 软件 的 专用 网 络 设备 和 通用 高 性 能 计算 机 互联 。 

网 络 功能 虚拟 化 (Network Functions Virtualization, NFV) 是 运用 云 原 理 ， 彻 底 改 变 “ 基 于 硬件 盒 ” 
的 电信 世界 的 一 种 新 的 发 展 产物 ” 。 

首先 来 解决 网 络 运 营 商 想 要 解决 的 问题 。 昌 然 今天 所 知道 的 “网 络 功能 ”大 部 分 是 由 软件 提供 的 ， 
但 这 类 软件 都 是 运行 在 专用 的 “电信 级 ”硬件 设备 之 上 的 。 “电信 级 ”意味 着 硬件 是 : ORT RRIF 
用 在 电信 网 络 中 运行 ; @ 在 网 络 中 的 设计 寿命 达到 15 年 以 上 ; (399.999% (“五 个 九 ” 的 级 别 ) 的 时 
加 内 功能 无 异常 〈《 即 每 年 只 能 出 现 不 超过 Smin 的 停机 时 间 )。 这 就 使 定制 设备 的 安装 和 维护 成 本 异常 
高 。 尤 其 是 考虑 到 “摩尔 ”定律 ， 即 计算 机 能 力 每 18 个 月 增加 一 倍 ， 因 此 可 以 很 容易 想象 到 对 专用 硬 
件 设备 给 出 15 年 服务 承诺 所 带 来 的 问题 。 

随 着 竞争 的 加 剧 ， 网 络 提供 商 一 直 在 寻求 一 种 解决 方案 ， 以 应 对 利润 的 减少 和 不 断 增 长 的 竞争 。 
而 目前 这 场 竞 赛 已 经 不 仅仅 来 自 于 电信 行业 内 部 ， 还 涉及 网 络 服务 提供 商 ， 即 所 谓 的 Over - The - Top 
(OTT) . 

解决 这 个 问题 需要 一 种 新 的 运营 模式 ， 它 可 以 降低 成 本 ， 加 快 推出 新 服务 以 实现 收入 的 增长 。 

为 了 解决 这 个 问题 ，7 家 世界 领先 的 电信 网 络 运营 商 联 手 合作 ， 制 定 了 一 套 标 准 ， 成 为 发 展 虚拟 化 


O 第 6 章 讨 论 了 数据 中 心 的 结构 。 

O 将 在 第 5 章 进行 描述 。 

S 为 了 充分 披露 ， 从 他 们 的 简短 提要 中 可 以 推断 ， 该 提要 的 作者 应 该 是 这 个 领域 的 第 一 批 行动 者 ， 因 此 他 们 的 看 法 自然 非 
常 乐观 。 


11 





网 络 服务 的 框架 。2012 年 10 月 12 H, 全球 12 家 网 络 运 营 商 ”的 代表 发 布 了 白皮书 ， 阐 述 了 这 样 做 的 
好 处 和 挑战 ， 并 发 出 了 参与 这 项 行动 的 呼吁 。 

不 久之 后 ， 其 他 52 家 运营 商 以 及 电信 设备 、IT 供应 商 和 技术 顾问 组 成 了 ETSI NFV 行业 规范 组 
(Industry Specifications Group, ISG) 。 

需要 采取 措施 的 方面 可 概括 如 下 。 

第 一 ， 改 善 运营 。 运 行 包括 来 自 多 个 供应 商 设备 的 网 络 太 复杂 ， 需 要 太 多 的 开销 〈 与 运营 商 相 比 ， 
电信 运营 商 必 须 处 理 更 高 数量 级 的 备件 数量 ) o 

第 二 ， 降 低 成 本 。 使 用 自动 化 管理 和 维护 基础 设施 将 只 需要 1/10 的 人 员 参 与 “手动 ”操作 。 因 
此 ， 电信 网 络 中 的 ， “硬件 盒 ” 数 量 将 比 云 运营 商 中 的 约 大 10000 倍 。 

第 三 ， 精 简 高 接触 流程 。 目 前 ， 配 置 和 扩展 服务 需要 手动 干预 ， 并 且 扩 展现 有 服务 需要 9 ~ 18 个 
月 的 时 间 ， 而 云 则 可 以 承诺 即时 缩放 。 

第 四 ， 缩 短 开 发 时 间 。 推 出 新 服务 需要 16 ~25 个 月 的 时 间 。 将 其 与 开行 业 的 数 周 进行 比较 ， 并 与 
云 中 的 立即 实施 服务 实例 化 相对 比 ， 何 优 何 劣 可 见 一 斑 。 

第 五 ， 降 低 更 换 成 本 。 随 着 服务 寿命 的 不 断 缩 短 ， 还 需要 更 换 与 硬件 配套 的 软件 ， 其 中 针对 硬件 
方面 的 措施 将 在 第 六 条 (也 是 最 后 一 条 ) 中 给 出 。 

第 六 ， 降 低 设 备 成 本 。 将 专 有 供应 商 专用 硬件 的 价格 与 基于 x86 H TEO nia PE DE AR IF AE H UAE EAT HE 
较 ， 并 从 中 得 到 局 示 。 

为 了 应 对 上 述 问 题 ， 需 要 采用 行 之 有 效 的 虚拟 化 和 云 原理 。 为 此 ，NFV 就 是 将 之 前 讨论 过 的 许多 
相同 的 云 原 理 融 入 到 电信 领域。 首先 ， 虚 拟 化 与 路 由 、 语 音 通 信 、 内 容 分 发 等 相关 的 网 络 功 能 相 结 合 ， 
然后 将 其 运行 在 大 规模 、 高 效 的 云 平 台 之 上 。 

NFV 空间 可 以 分 为 两 部 分 : NEV 平台 和 运行 在 其 上 的 网 络 功能 。 其 想法 是 将 网 络 功能 运行 在 众人 
网 络 中 的 通用 共享 平台 (NFV 平台 ) 上 。 当 然 ， 网 络 是 一 般 云 和 NFV 之 间 的 主要 区 别 ， 因 为 后 者 的 存 
在 理由 是 能 够 提供 基于 网 络 的 服务 。 

NFV 是 指 用 虚拟 化 替代 物理 部 署 ， 动 态 部 署 网 络 功 能 ， 通 过 现 有 通用 (Common Off - The - Shelf, 
COTS) 的 硬件 实现 网 络 需求 。NFYV 平台 能 够 实现 云 节 点 安装 和 操作 的 自动 化 ， 协 调 大 规模 的 分 布 式 数 
据 中 心 ， 管理 和 实现 应 用 程序 生命 请 周期 自动 化 ， 并 利用 网 络 。 毋 庸 赣 言 ， 该 平台 对 所 有 广 商都 是 开 
放 的 。 

要 想 了 解 有 关 NEV 动态 方面 的 问题 ， 请 参考 内 容 分 发 网 络 (Content Delivery Networking, CDN) Hk 
务 (其 所 有 方面 都 在 专著 ”中 进行 了 深入 的 讨论 ， 为 此 这 里 强烈 推荐 ) 。 简 而 言 之 ， 当 内 容 提供 商 ( 例 
如 ， 电 影 流 媒体 网 站 ) 需要 通过 互联 网 提供 实时 服务 时 ,带宽 成 本 (和 拥塞 ) 是 一 个 障碍 。 针 对 这 一 
问题 ， 一 种 有 效 的 解决 方案 是 在 很 多 服务 器 上 复制 内 容 ， 这 些 服 务 需 所 布 于 运营 商 网 络 中 的 各 个 地 理 
位 置 上 ， 以 满足 各 本 地 用 户 的 需求 ， 同 时 收取 一 定 的 费用 。 目 前 ， 这 意味 着 部 署 和 管理 物理 服务 人 希 ， 
这 些 服务 器 带 有 前 面 所 讨论 的 一 些 问 题 。 一 个 问题 是 ， 需 求 通常 是 基于 一 天 中 的 时 间 。 由 于 在 美国 东 
海岸 观看 电影 的 时 间 与 日 本 不 同 ， 因 此 相应 的 服务 器 将 被 交替 利用 ， 并 且 无 法 长 时 间 地 持续 提供 服务 。 
将 CDN 服务 器 动态 部 署 到 需要 服务 的 用 户 附 近 的 数据 中 心 的 这 种 能 力 ， 是 一 种 明显 的 优势 ， 这 不 仅 节 
省 了 成 本 ， 而 且 内 容 提 供 商 和 运营 商 提供 了 前 所 未 有 的 灵活 性 。 

类 似 地 ， 虽 然 专业 性 较 强 ， 但 是 能 够 立即 从 NFV 中 受益 的 电信 应 用 的 例子 是 第 三 代 (Third Gener- 
ation, 3G) 移动 通信 的 卫 多 媒体 子 系统 (IP Multimedia Subsystem, IMS) 和 第 四 代 (Fourth Genera- 
tion, 4G) 和 (Evolved Packet Core，EPC ) 。 作 为 一 个 简单 的 例子 : 应 当 
支持 漫游 的 网 络 功能 ” ) 。 

网 络 提供 商 认为 NFV 同时 具有 着 覆 性 和 挑战 性 ， 在 这 个 领域 的 很 多 网 络 供应 商 也 是 如 此 。 
可 以 将 制定 NFV 解决 方案 的 原则 概括 为 以 下 几 点 : 


O AT&T (美国 电话 电报 公司 ) BT (英国 电信 )、CenturyLink (Haet), HERZ, Colt, Deutsche Telekom (德国 电 
信 )、KDDI、NTT (日 本 电报 电话 公司 ) Telecom Italia (意大利 电信 ) 、Telefonica (西班牙 电信 )、Telstra (澳洲 电信 ) 
和 Verizon ( 威 瑞 森 公 司 )。 

O© 如 IMS 中 的 代理 呼叫 会 话 控 制 功能 (Proxy Call Session Control Function, P - CSCF ) 。 
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1) NFV 云 分 布 在 运营 商 的 网 络 中 ， 并 且 它 可 以 由 设计 用 于 零 接 触 、 自 动 化 、 大 规模 部 署 在 中 心 
局 ”和 数据 中 心 的 元 件 构建 。 

2) NFV 云 可 以 利用 网 络 服务 并 与 网 络 服务 集成 ， 以 便 为 服务 提供 完整 的 端 到 端 保 证 。 

3) NEV 云 是 开放 的 ， 因 为 它 必 须 能 够 促进 来 自 不 同 供应 商 并 使 用 不 同 技术 的 应 用 程序 正常 运转 。 

4) NFV 云 通 过 目 动 化 和 统一 服务 提供 商 可 能 拥有 的 多 种 服务 ， 实 现 一 种 全 新 的 操作 模式 ， 如 分 布 
式 云 位 置 和 应 用 程序 生命 周期 (将 在 第 7 章 做 进一步 介绍 ) 。NFV 云 必须 能 够 提供 高 度 的 安全 性 。 关 于 
这 个 问题 ， 请 参阅 TMCnet 发 布 的 白皮书 ， 其 中 概述 了 作者 对 这 一 主题 的 看 法 。 

毫 无 疑问 ， 这 项 最 新 的 前 沿 技 术 向 我 们 展示 了 目前 云 已 经 足够 成 熟 ， 可 以 变革 更 多 的 传统 行业 ， 
如 能 源 行业 。 未 来 几 年 ， 我 们 将 看 到 云 对 这 些 行业 的 财务 业绩 和 竞争 力 所 带 来 的 根本 影响 。 


参考 文献 


] Weinman, J. (2012) The Business Value of Cloud Computing. John Wiley & Sons, Inc, New York. 
2] Chou, T. (2010) Cloud; Seven Clear Business Models, 2nd edn. Active Book Press, Madison, WI. 
] Hofmann, M. and Beaumont, L. R. (2005) Content Networking; Architecture, Protocols, and Practice (part of the 
Morgan Kaufmann Series in Networking) . Morgan Kaufmann/Elsevier, Amsterdam. 
[4] Camarillo, G. and García — Martin, M. - A. (2008) The 3G IP Multimedia Subsystem (IMS); Merging the Internet 
and the Cellular Worlds, 3rd edn. John Wiley & Sons, Inc, New York. 
[5] Olsson, M. , Sultana, S. , Rommer, S. , et al. (2012) EPC and 4G Packet Networks; Driving the Mobile Broad- 


band Revolution, 2nd edn. Academic Press/Elsevier, Amsterdam. 


O 中心 局 (Central Office) 是 承载 一 个 或 多 个 交换 机 的 电信 设备 的 建筑 物 。 
l 13 


第 3 a. son 
CPU 虚拟 化 | 


本 章 将 介绍 虚拟 机 的 概念 以 及 实现 它 的 技术 。 该 技术 相当 复杂 ， 因 为 它 涵盖 了 计算 机 架构 、 操 作 
系统 甚至 数据 通信 的 发 展 。 这 些 问题 在 这 里 对 云 计算 来 说 至 关 重 要 ， 因 此 我 们 将 着 重 对 其 进行 介绍 。 

为 此 ， 本 章 的 名 称 不 是 特别 的 准确 : 本 章 的 内 容 不 仅 是 CPU 的 虚拟 化 ， 而 是 整个 计算 机 ， 包 括 它 
的 内 存 和 设备 。 鉴 于 此 ， 如 果 不 是 在 虚拟 化 的 概念 中 ， 处 理 CPU 的 部 分 是 最 重要 和 最 复杂 的 话 ， 省 略 
CPU 一 词 可 能 会 更 为 准确 一 些 。 

从 最 初 的 动机 和 一 些 历史 中 ， 可 以 追溯 到 20 世纪 70 年 代 初期 ， 以 计算 机 架构 的 基础 知识 为 切 人 
点 ， 来 了 解 程序 控制 的 具体 内 容 和 实现 方式 。 之 所 以 需要 着 重 介绍 这 个 问题 ， 是 因为 它 是 安全 性 问题 
的 核心 : 通过 操纵 程序 控制 可 以 影响 主要 的 安全 攻击 。 

在 解决 架构 和 程序 控制 之 后 ， 将 有 选择 地 总 结 操作 系统 中 最 相关 的 概念 和 发 展 。 幸 运 的 是 ， 在 这 
一 问题 方面 有 很 多 优秀 的 参考 书 ， 使 我 们 得 以 进行 深入 的 研究 ,专攻 虚拟 化 中 的 关键 问题 和 难题 ( 实 
现 虚拟 化 的 实体 ， 即 虚拟 机 管理 程序 ， 实 际 上 是 一 个 “运行 ”常规 操作 系统 的 操作 系统 ) 。 将 解释 有 关 
进程 的 重要 概念 并 列 出 一 些 重要 的 操作 系统 服务 。 还 将 讨论 虚拟 内 存 的 概念 ， 并 展示 它 是 如 何 实现 
的 一 一 这 是 一 个 有 趣 的 发 展 过 程 ， 同 时 为 介绍 更 为 广泛 的 虚拟 化 方面 的 内 容 做 好 准备 。 

一 旦 完成 了 这 项 准备 工作 ， 本 章 将 最 终 阐明 虚拟 机 的 概念 。 将 主要 关注 于 虚拟 机 管理 程序 ,它们 
的 服务 、 内 部 运作 和 安全 性 问题 ， 所 有 的 这 些 都 通过 实例 进行 说 明 ， 


3.1 动机 与 历史 


回 到 20 世纪 60 年 代 ， 随 铸 计 算 机 的 发 展 越 来 越 快 ， 使 用 它们 的 机 构 和 企业 在 决定 是 否 要 更 换 旧 系 
统 时 ， 往 往 会 权衡 利弊 。 其 中 主要 的 问题 与 现在 是 一 样 的 : 软件 成 本 的 改变 ， 特 别 是 因为 在 当时 这 些 
成 本 比 现在 高 得 多 ， 可 预测 性 更 差 。 假 设 一 家 企业 有 3 台 或 者 4 台 老 旧 的 计算 机 ， 其 中 安装 了 所 有 的 程 
F, 并 已 经 将 维护 程序 设置 到 位 ， 如 果 要 将 软件 迁移 到 一 台新 的 计算 机 一 一 即使 这 台 计 算 机 比 所 有 传 
统 的 机 带 加 起 来 还 要 快 一 一 企业 仍然 需要 充分 地 权衡 利 棘 ， 因 为 最 重要 的 还 是 经 济 问题 ， 如 图 3. 1 
所 示 。 


之 前 es 











图 3.1 虚拟 化 前 后 的 计算 环境 
但 是 ， 随 者 业务 的 增长 ， 他 们 的 计算 需求 也 随 着 不 断 地 增长 。 业 内 正在 努力 解决 这 个 问题 ， 在 这 
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方面 IBM 和 膝 省 理工 学 院 主导 者 一 些 相关 的 研究 。 起 初 在 20 世纪 60 年 代 , 在 IBM 的 System 360 Model 
67 中 已 经 实现 了 时 间 共 享 ( 即 并 行 运 行 多 个 应 用 程序 进程 ) 和 虚拟 内 存 ( 即 为 每 个 进程 提供 独立 的 全 
地 址 范围 连续 的 内 存 阵 列 ) ， 但 是 这 些 技术 不 足以 将 多 台 “ 整 机 ”移植 到 一 台 机 器 上 。 换 句 话 说， 让 独 
立 机 怖 的 操作 系统 以 一 个 单独 的 用 户 进程 的 形式 运行 在 新 的 机 器 上 ， 这 种 解决 方案 其 实 并 不 简单 ， 其 
原因 将 在 本 章 后 面 内 容 中 进行 详细 的 研究 。 简 而 言 之 ， 主 要 障碍 是 (并且 仍 然 是 ) 操作 系统 的 代码 需 
要 使 用 的 部 分 指令 的 权限 ， 对 用 户 程序 来 说 是 不 可 用 的 。 

克 服 这 一 障碍 的 唯一 方法 是 开发 一 种 超级 操作 系统 来 监督 其 他 操作 系统 的 运行 。 因此， 也 就 产生 
了 “虚拟 机 管理 程序 ”这 一 术语 。 通 过 IBM 和 麻 省 理工 学 院 在 剑桥 科学 研究 中 心 的 联合 研究 ， 最 终 推 
出 了 “控制 程序 /剑桥 监控 系统 (Control Program/Cambridge Monitor System ，CPZCMS )”。 该 系统 经 历 了 
4 个 主要 的 版 本 ,成 为 最 终 实 现 虚拟 机 管理 程序 的 IBM VM/370 操作 系统 的 基础 。CPACMS 的 另 一 个 具 
有 开创 性 的 成 果 是 创建 了 一 个 用 户 社区 ， 这 个 用 户 社区 预示 了 今天 的 开源 运动 。CP/CMS 代码 被 免费 提 
供给 IBM 的 用 户 。 

IBM VM/370 于 1972 年 对 外 公布 。 有 关 它 的 介绍 和 历史 在 Robert Creasy 的 著名 论文 “中 有 很 好 的 
介绍 。CMS， 后 来 更 名 为 会 话 监控 系统 ， 作 为 其 中 的 一 部 分 。 这 是 一 个 巨大 的 成 功 ,不 仅 因为 它 实现 
了 将 多 个 系统 移植 到 一 台 机 器 上 的 原始 目标 ， 而 且 还 因为 它 有 效 地 启动 了 虚拟 化 行业 ， 这 是 云 计算 的 
一 个 决定 性 的 推动 者 。 

从 那 时 起 ， 为 小 型 机 和 以 后 的 微型 计算 机 所 开发 的 所 有 硬件 都 部 分 或 全 部 满足 了 虚拟 化 的 需求 。 
类 似 地 ， 软 件 的 开发 也 解决 了 与 硬件 开发 相同 的 需求 。 

接 下 来 ， 将 分 析 虚 拟 化 技术 方面 的 问题 ， 同 时 将 它 的 主要 成 果 总 结 如 下 : 

1) 节省 成 本 (在 空间 、 人 员 和 能 源 方面 一 一 注意 绿色 环保 ) ， 用 一 台 机 器 的 运行 代替 多 人 台 物 理 机 
甫 的 运行 。 

2) 灵活 地 投入 使 用 (否则 浪费 ) 计算 能 力 。 

3) 几乎 可 以 立刻 实现 克隆 服务 器 (例如 ， 为 了 调试 的 目的 )。 

4) 为 了 特定 的 目的 ， 隔 离 软件 包 (通常 是 出 于 安全 考虑 ) 不 需要 购买 新 的 硬件 。 

5) 能 够 以 较 低 的 成 本 并 且 可 以 立刻 实现 机 器 的 迁移 (例如 ， 当 负载 增加 时 ) 一 一 通过 网 络 甚至 记 
忆 棒 即 可 实现 机 天 的 迁移 。 

其 中 最 后 一 个 成 果 (即将 虚拟 机 从 一 台 物 理 机 器 迁移 到 另 一 台 物 理 机 器 的 功能 ) 被 称 为 实时 迁移 。 
在 某 种 程度 上 ， 它 的 目的 与 将 虚拟 化 具体 实现 〈 即 将 多 台 机 器 整合 到 一 台 物 理 主机 上 ) 的 目的 完全 相 
反 。 实 时 迁移 需要 被 用 来 支持 弹性 化 ， 因 为 将 机 器 转移 到 具有 更 多 内 存 和 减少 负载 的 新 主机 上 ， 可 以 
提高 它 的 性 能 特征 。 








3.2 计算 机 体系 结构 入 门 知 识 


本 节 内 容 可 以 让 本 书 的 体系 更 加 完备 ， 内 容 更 加 完整 。 它 对 于 我 们 理解 最 重要 的 虚拟 化 问题 至 天 
重要 ， 特 别 是 在 安全 性 问题 方面 。 熟 悉 计 算 机 体系 结构 的 读者 可 以 自行 跳 过 这 部 分 内 容 。 在 这 部 分 的 
内 容 中 ， 更 重要 的 是 介绍 了 主要 的 编程 控制 结构 (程序 调用 、 终 端 和 异常 处 理 )。 对 于 希望 了 解 更 多 内 
容 的 读者 ， 推 荐 一 本 名 为 “Workhorse of Computer Science Education” 的 教材 2 ”， 其 中 介绍 的 内 容 更 为 


丰富 
3.2.1 CPU、 内存 和 JIZO xx | 


图 3. 2 描述 了 几乎 所 有 需要 了 解 的 计算 机 的 构建 模块 。 对 于 这 些 模 块 ， 本 书 将 逐步 深入 地 展开 
介绍 。 
计算 机 的 三 大 组 成 部 分 包括 : 
1) 中 央 处 理 单元 (Central Processing Unit, CPU), 负责 实际 执行 程序 。 
2) 计算 机 内 存 [技术 上 称 为 随机 访问 存储 器 (Random Access Memory, RAM) ] ， 其 中 存储 着 程序 


= O RBSM [2] 与 此 处 不 一 致 。 一 — 译 者 注 
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和 数据 。 

3) A/h (Input/Output, V0) 设备 ， 例 如 
显示 器 、 键 盘 、 网 卡 或 磁盘 。 

所 有 这 3 个 部 分 都 通过 “总 线 ” 相 互 连 接 ， 这 也 
使 计算 机 可 以 进行 扩展 ， 从 而 包含 更 多 的 设备 。 

RAM 中 的 Random 一 词 (与 “顺序 ”的 意思 相 
反 ) 意味 着 存储 器 被 作为 数组 ， 通 过 存储 器 位 置 的 索 
引进 行 访问 。 该 索引 被 称 为 内 存 地 址 。 

需要 注意 的 是 ， 磁 盘 实 际 上 也 是 一 种 类 型 的 存储 

只 是 读 取 速 度 比 RAM 慢 得 多 。 另 外 ,与 RAM 不 
同 ， 磁 盘 和 其 他 永久 存储 设备 上 的 存储 器 是 持久 的 : 
即使 电源 关闭 ， 存 储 的 数据 也 仍然 存在 。 VO 设备 

在 存储 器 领域 的 另 一 端 ， 还 有 比 RAM 读 取 速度 = 
快 得 更 多 的 ， 位 于 CPU 内 部 。 所 有 的 这 些 存储 器 都 是 
不 同 的 ， 这 类 存储 需 被 称 为 寄存 器 。 只 有 寄存 器 可 以 
执行 操作 〈 例 如 加 法 或 乘法 等 数学 运算 ， 以 及 一 系列 
的 按 位 逻辑 运算 ) 。 这 是 通过 将 寄存 器 与 算术 和 逻辑 单元 Arithmetic and Logic Unit, ALU) 连接 的 电路 
来 实现 的 。 例 如 ， 为 了 对 存储 在 内 存 中 的 两 个 数字 执行 算术 运算 ， 典 型 的 操作 模式 是 ， 先 将 数字 传送 
到 寄存 器 ， 然 后 在 CPU 内 执行 操作 。 

一 些 寄存 器 (将 其 表示 为 R1、R2 等 ) 是 通用 的 ， 而 其 他 的 一 些 寄 存 器 只 能 用 于 特殊 的 需求 。 为 
了 更 好 地 进行 讨论 ， 选 取 了 后 一 类 型 中 的 3 个 寄存 器 ， 它 们 存在 于 所 有 的 CPU 中 : 

1) 程序 计数 器 (Program Counter, PC) 寄存 器 ， 总 是 指向 存储 下 一 个 程序 指令 的 内 存 位 置 。 

2) 堆栈 指针 (Stack Pointer, SP) 寄存 器 ， 总 是 指向 一 个 进程 堆栈 的 位 置 。 稍 后 将 介绍 这 个 概念 。 

3) STATUS 寄存 右 ， 保 持 执行 控制 状态 。 在 很 多 其 他 的 操作 中 ， 它 存储 着 与 上 一 次 操作 结果 相关 
的 信息 。 例 如 ， 当 一 个 算术 运算 结果 为 零 时 ， 就 会 将 STATUS 寄存 器 中 被 称 为 零 比特 位 的 标志 置 位 ， 类 
似 地 ， 在 STATUS 寄存 器 中 还 有 正比 特 位 和 负 比 特 位 标志 。 所 有 这 些 都 用 于 转移 指令 : IZ 为 零 跳 转 ; 
JP 为 正 跳 转 ; IN 为 负 跳 转 。 反 过 来 ， 这 些 指令 被 高 级 语言 用 来 实现 条 件 让 语句 。 对 于 虚拟 化 来 说 ， 另 
一 个 非常 关键 的 是 对 STATUS 寄存 器 的 使 用 ( 稍 后 讨论 ) ， 用 于 指示 CPU 必须 在 跟踪 模式 下 工作 ， 即 每 
次 执行 一 条 指令 。 需 要 的 时 候 ， 将 介绍 一 些 新 的 标志 。 

总 的 来 说 ， 所 有 寄存 器 值 的 集合 (有 时 称 为 上 下 文 ) 构成 了 CPU 所 执行 的 程序 状态 。 执 行 中 的 程 
序 被 称 为 进程 ”， 这 是 一 个 非常 模糊 的 定义 ， 这 里 通过 一 个 比喻 来 阐述 它 的 用 途 。 可 以 把 一 个 程序 看 作 
一 本 食谱 ， 将 CPU 看 作 使 用 厨房 用 具 的 厨师 ， 然 后 可 以 把 进程 定义 为 烹饪 食谱 中 所 描述 的 具体 菜肴 的 
动作 。 

当 厨 师 切 换 到 准备 另 一 道 菜肴 时 ， 只 要 菜肴 的 状态 被 记 住 (即食 谱 中 的 具体 步骤 ) ， 厨 师 就 可 以 同 
时 亮 饪 多 个 菜肴 。 例 如 ， 厨 师 可 以 将 烤肉 放 和 烤箱， 设置 定时 闸 钟 ， 然 后 开始 制作 点 心 。 当 亲 钟 响起 
时 ， 厨 师 将 暂时 放弃 甜点 并 处 理 烤肉 。 这 样 做 ， 厨 师 必 须知 道 是 要 继续 烘 烤 ， 还 是 把 它 从 烤箱 里 拿 出 
来 。 一 旦 烤肉 处 理 完 毕 ， 厨 师 就 可 以 恢复 在 甜点 上 的 工作 。 但 是 厨师 还 需要 记 住 甜点 制作 工作 被 搁置 
的 地 方 。 

由 现代 操作 系统 维护 的 多 编程 做 法 ， 是 将 CPU 的 状态 存储 在 进程 堆栈 上 ， 这 就 带 来 了 CPU 内 部 运 
行 的 问题 ， 供 我 们 进行 研究 。 

为 了 完成 本 节 内 容 (并 对 图 3.2 进行 相对 简单 的 介绍 ) ， 此 处 将 对 现代 CPU 的 内 部 运行 问题 进行 一 
个 基本 的 了 解 ， 如 今 的 CPU 内 部 可 能 有 不 只 一 组 相同 的 寄存 器 。 至 少 为 用 户 模式 保留 一 个 寄存 器 
集 一 一 应 用 程序 在 其 中 执行 ， 其 他 的 寄存 器 集 供 系统 (或 监控 或 内 核 ) 模式 使 用 一 一 只 有 操作 系统 的 
软件 能 够 在 其 中 执行 ， 其 原因 将 在 后 面 进行 介绍 。 


O ” 在 某 些 操作 系统 中 ,“ 线 程 ” 实 际 上 表示 程序 的 执行 ， 而 将 “进程 ”保留 用 来 表示 共享 相同 内 存 空 间 的 一 组 线程 。 但 
是 ， 这 里 有 意 不 区 分 这 两 者 之 间 的 区 别 。 
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3.2.2 CPU 的 工作 原理 eee | 


CPU 的 概念 相当 简单 ， 但 需要 注意 的 是 ，CPU 本 身 不 会 “理解 ”任何 程序 。 它 只 能 处 理 用 它 自己 
的 、CPU 特定 的 机 器 代码 编写 的 单条 指令 。 因 此 ， 它 只 能 保持 这 条 指令 的 处 理 状态 。 一 旦 这 条 指令 执 
行 完毕 ，CPU 就 会 “忘记 ” 它 所 做 的 一 起 ， 并 开始 进入 到 下 一 条 指令 执行 的 新 周期 。 

虽然 不 需要 了 解 特定 CPU 所 有 的 机 器 代码 指令 ， 但 是 为 了 理解 它 的 工作 原理 ， 必 须要 掌握 其 中 的 
一 些 基本 概念 。 

正如 Donald Knuth 在 他 开创 性 的 研究 中 中 所 提 到 的 ,，“ 对 计算 机 较 感 兴趣 的 人 应 当 学 习 机 器 语言 ， 
因为 它 是 计算 机 的 基本 组 成 部 分 ”"。 如 今 这 人 句 话 变 得 更 重要 了 一 一 没有 对 机 器 语言 结构 的 理解 ， 也 就 无 
法 掌握 虚拟 化 。 

幸运 的 是 ， 它 所 涉及 的 问题 是 非常 简单 的 ， 可 以 通过 几 个 指令 来 解释 这 些 问题 。 为 了 简单 起 见 ， 
本 书 将 避免 参考 现 有 CPU 的 指令 ， 而 只 是 以 自己 的 指令 为 例 。 最 后 ，CPU 将 指令 “ 视 为 ”比特 串 ， 最 
终 构成 机 器 级 代码 ， 不 过 不 需要 考虑 这 个 级 别 上 的 问题 。 只 需要 了 解 用 来 代表 这 些 指令 的 文本 “汇编 
语言 ” 即 可 。 

每 个 指令 都 由 其 操作 码 opcode 组 成 ， 它 指定 了 要 执行 的 操作 ， 后 面 跟着 操作 数列 表 。 首 先 ， 要 想 
对 内 存 中 存储 的 变量 进行 操作 ，CPU 就 必须 先 将 该 变量 加 载 到 寄存 器 中 。 

举 一 个 简单 的 例子 : 要 想 把 分 别 存储 在 地 址 10002 和 10010 的 两 个 数 相 加 ， 程 序 就 必须 先 将 这 些 数 
传送 到 两 个 CPU 寄存 器 中 ,如 R1 和 R2 。 这 是 通过 LOAD 指令 来 实现 的 ， 它 只 完成 这 样 的 工作 : 将 目 
标 加 载 到 寄存 器 中 。 产 生 的 程序 如 下 : | 

LOAD R1 @ 10002 n ， l 2 a 

LOAD R2 @ 10010 a : 

ADD R1, R2 3 

其 中 符合 汇编 语言 约定 的 字符 “@ ”表示 间接 寻 址 。 换 句 话 说 ，“@ ”后 面 的 数字 字符 串 表示 一 
个 地 址 ， 从 这 个 数字 值 指示 的 地 址 内 将 变量 的 值 加 载 到 寄存 器 中 ， 而 不 是 加 载 这 个 数字 值 本 身 。 如 果 
想 表 示 寻 址 是 立即 的 ， 也 就 是 说 ， 要 加 载 数 字 字 符 串 的 实际 值 - 一 使 用 字符 “#” 来 处 理 它 ， 
如 LOAD R1, #3. 

在 上 面 的 小 程序 中 ， 最 后 一 条 指令 实现 两 个 寄存 器 的 值 相 加 并 将 结果 存储 在 第 二 个 操作 数 寄存 器 
R2 中 (正如 机 器 语言 所 定义 的 那样 )。 

， 在 大 多 数 情 况 下 ， 程 序 需 要 将 结果 存储 在 其 他 地 方 。STORE 指令 用 于 完成 这 项 工作 ， 它 实际 上 是 
LOAD 指令 的 相反 过 程 。 假 设 变 量 x、y 和 z 分别 位 于 地 址 10002, 10010 和 10020, 可 以 用 指令 
STORE R2, @ 10020 来 执行 C 语言 的 赋值 语句 : z=xt+y. 

类 似 地 ， 除 了 算术 指令 ADD 外 ， 其 他 的 指令 [white TRUE 
几乎 不 需要 进行 任何 额外 的 说 明 。 这 里 需要 简单 | 1 
提 一 下 的 是 逻辑 指令 ; AND 和 OR， 它们 是 按 位 执 pe | 
行 相应 的 操作 的 。 因 此 ， 指 令 ORREY SESH X 中 Fi — i 
值 为 1 的 比特 位 对 RI 中 的 相应 比特 位 置 位 ; 而 指 a ik a 
AAND RI, XUÆ X 中 值 为 0 的 比特 位 对 RI 中 ae 
的 相应 比特 位 复位 。 这 些 逻 辑 指令 再 加 上 SHIFT 
(根据 参数 值 将 寄存 器 比特 位 向 右 或 向 左 移 位 指定 
位 数 ， 同 时 复位 被 移 位 的 位 ) 指令 可 以 实现 所 有 
位 模式 的 操作 。 接 下 来 ， 将 介绍 一 些 其 他 的 指令 。 
现在 准备 先 通过 一 个 非常 简化 的 描述 来 看 一 下 
CPU 的 工作 机 制 ， 如 图 3.3 所 示 。 后 面 ， 将 继续 介 
绍 与 这 一 描述 相关 的 重要 细节 。 

CPU 像 时 钟 一 样 工作 ， 这 与 机 器 世界 非 党 类似。 计算 机 的 所 有 操作 都 是 按照 被 称 为 计算 机 时 钟 的 
设备 所 发 射 的 脉冲 频率 来 进行 的 ， 正 如 部 分 机 械 时 钟 是 根据 摆 锤 摆动 而 工作 的 一 样 。 为 此 ，CPU 的 速 
度 可 以 通过 它 能 够 支持 的 时 钟 频率 来 测量 。 
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所 有 CPU 都 执行 严格 的 无 限 循 环 ， 在 这 个 过 程 中 ,不 断 地 从 内 存 中 获取 指令 并 执行 指令 。 一 旦 完 
成 ， 一 切 将 重新 开始 。 除 了 寄存 器 中 剩余 的 内 容 外 ，CPU 不 携带 上 一 条 指令 的 内 存 。 

如 果 把 小 程序 放 在 内 存 位 置 200000 中 , 那么 必须 用 这 个 值 加 载 PC 寄存 器 ， 以 便 CPU 开始 执行 这 
个 程序 的 第 一 条 指令 。 然 后 ，CPU 将 PC 步 进 到 下 一 条 指令 ， 恰 好 在 地 址 200020 处 。 因 此 ， 可 以 很 容 
易 地 看 到 程序 的 其 余部 分 如 何 执行 。 

不 过 在 这 里 ， 对 于 程序 的 每 个 指令 来 说 ， 下 一 个 指令 碰巧 就 是 内 存 中 的 下 一 条 指令 。 一 般 编程 绝 
对 不 是 这 样 ， 因 此 CPU 需要 更 为 复杂 的 控制 转移 能 力 ， 接 下 来 将 讨论 这 一 问题 。 

3.2.3 程序 内 控制 转移 : 跳 转 和 过 程 调用 * kk 

至 少 ， 为 了 执行 让 -then -else 逻辑 ， 需 要 一 个 指令 ， 强 制 CPU“ 跳 转 ” 到 内 存 中 与 上 一 条 指令 地 
址 不 连续 的 地 址 上 的 指令 ，JUMP 就 是 一 条 这 样 的 指令 。 它 唯一 的 操作 数 是 一 个 内 存 地 址 ， 它 的 执行 结 
果 是 将 该 地 址 变 成 PC 寄存 器 的 值 。 

该 系列 指令 中 的 另 一 个 指令 是 JNZ (如 果 非 零 即 跳 转 ) ， 对 该 指令 唯一 的 操作 数 所 提供 的 地 址 执行 
条 件 转移 。 这 里 的 非 零 指 的 是 STATUS 寄存 器 的 0 比特 位 的 取 值 。 每 次 算术 运算 结果 或 逻辑 运算 结果 为 
Zit, CPU 都 将 通过 ALU 电路 进行 内 部 处 理 。 执 行 该 指令 时 ，CPU 只 会 将 PC 的 值 更 改 为 操作 数 的 值 。 
STATUS 寄存 器 通常 保存 其 他 条 件 位 ， 以 指示 数字 结果 是 正 还 是 负 。 为 了 使 程序 员 的 工作 更 加 容易 (并 
且 其 结果 更 快 ) ， 许 多 CPU 提供 了 条 件 转移 指令 的 其 他 变 体 。 

对 所 有 现代 CPU 而 言 ， 更 有 趣 也 是 最 基本 的 是 将 控制 转移 给 其 他 过 程 (一 段 程序 ) 的 指令 。 我 们 
将 这 种 指令 称 为 JPR ( 跳 转 到 程序 ) 。 这 里 ，CPU 通过 将 PC 当前 值 (根据 图 3.3， 该 值 最 初 指 向 内 存 中 
的 下 一 条 指令 ) 自动 存储 在 SP 指向 的 堆栈 ”上 来 帮助 程序 员 。 这 样 ，SP 的 值 就 被 适当 地 改变 ， 从 而 使 
CPU 能 够 将 控制 权 返 回 到 程序 中 调用 过 程 的 位 置 。 为 了 实现 这 一 点 ， 有 一 个 无 操作 数 的 指令 RTP (从 
过 程 中 返回 ) ， 它 可 以 将 之 前 的 值 弹 出 堆栈 并 恢复 PC 的 值 。 不过， 这 条 指令 必须 是 每 个 过 程 体 中 的 最 
后 一 条 指令 。 

这 里 有 几 个 重要 的 问题 需要 考虑 。 

首先 ,我们 看 到 只 有 使 用 JUMP 指令 才能 实现 一 个 类 似 的 结果 。 毕 竟 ， 程 序 员 (或 编译 器 ) 可 以 
添加 几 个 指令 来 将 PC 存储 在 堆栈 上 。 从 一 个 JUMP 到 该 过 程 结束 时 弹出 的 PC 值 ， 该 任务 就 完成 了 。 
因此 ， 即 使 CPU 没有 堆栈 的 概念 ， 一 切 也 都 可 以 正常 工作 ， 所 以 它 可 以 是 一 个 用 户 定义 的 结构 。 不 过 ， 
现代 CPU 是 按照 这 里 描述 的 方式 进行 设计 开发 的 ， 其 中 的 两 个 主要 原因 在 于 : Q@ 使 过 程 调用 更 快 ( 通 
过 避免 获取 其 他 额外 的 指令 ) ; 四 保 持 良好 的 编码 习惯 ， 使 ALGOL 语言 及 其 衍生 物 的 适应 性 变 得 简单 
直观 (一 种 语言 导向 型 设计 )。 正 如 已 经 注意 到 的 ， 递归 就 是 用 这 种 技术 构建 的 。 

其 次 ， 进 程 作为 程序 执行 的 概念 现在 应 该 更 加 清晰 。 实 际 上 ， 堆栈 跟踪 着 当前 代码 主线 之 外 的 控 
H. ARIE, Æ 20 世纪 80 年 代 ，Borroughs 公司 的 程序 人 员 高 度 创新 ， 在 当时 CPU 架构 还 是 
ALGOL 导向 的 时 候 就 交替 地 使 用 了 进程 和 堆栈 这 两 个 词 。 这 是 理解 进程 的 一 个 非常 好 的 方式 一 一 因为 
其 堆栈 可 以 有 效 地 表示 其 自己 ， 而 堆栈 始终 跟踪 单个 线程 的 执行 。 

第 三 ， 这 种 结构 开始 为 多 重 处 理 的 文 持 机 制 揭 开 序幕 。 假 设 CPU 可 以 将 其 所 有 的 状态 存储 在 进程 
堆栈 中 ， 然 后 恢复 它们 (这 种 功能 将 在 下 一 节 中 进行 介绍 ) 。 可 以 想象 ， 一 个 CPU 可 以 通过 在 各 个 堆 
栈 之 间 切 换 来 同时 执行 不 同 的 进程 。 

第 四 ， 这 是 一 个 重大 的 安全 问题 。 事 实 上 ， 当 从 一 个 程序 过 程 返 回 时 ，CPU 会 弹出 堆栈 并 将 其 视 
为 PC (A, 不管 这 个 值 之 前 存储 在 哪里 。 这 就 意味 着 如 果 有 人 使 用 另 一 个 内 存 地 址 替换 PC 的 原始 存储 
值 ， 那 么 CPU 将 自动 开始 执行 该 内 存 地 址 处 的 代码 。 这 种 情况 已 经 被 用 于 传播 计算 机 蠕虫 病毒 。 典 型 
的 PC 重 写 技 术 是 将 缓冲 区 作为 程序 过 程 的 参数 (因此 出 现在 堆栈 上 )。 例 如 ， 如 果 缓 冲 区 被 读 取 的 用 
户 字 符 串 填充 满 ， 并 且 程 序 代码 没有 检查 缓冲 区 的 限制 ， 则 可 以 通过 将 该 字符 串 进行 精心 的 构造 来 传 
递 : 蠕虫 代码 和 指 问 该 代码 的 指针 ， 从 而 用 该 指针 重 写 PC 的 存储 值 。1988 年 原始 的 Morris 蠕虫 已 经 成 
功 尝试 了 这 一 技术 ( 详 见 本 章 参考 文献 [4] ， 该 文献 从 蠕虫 的 发 展 历 史 展 开 ， 对 这 一 技术 进行 了 全 面 


晶 ” 在 这 一 点 上 ， 故 意 忽略 定义 表达 地 址 的 内 存单 位 ( 即 字 节 或 字 )。 
O ”堆栈 一 般 设置 在 较 高 的 存储 器 地 址 中 ， 从 而 使 其 向 下 “增长 : 将 个 存储 单元 放 在 堆栈 上 ， 将 导致 SP 的 值 减少 ne 
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彻底 的 说 明 )”。 对 此 ， 将 在 本 章 的 最 后 一 节 讨 论 相 关 的 安全 性 问题 。 

对 于 以 下 内 容 ， 重点 在 于 对 如 何 使 用 堆栈 来 实现 过 程 调用 进行 详细 的 说 明 。 

有 了 CPU 的 少量 帮助 ， 剩 下 的 工作 则 交 给 程序 员 ( 如果 程 序 是 程序 员 使 用 汇编 语言 编写 的 ) 或 编 
Meat ( 如 果 程 序 是 程序 员 使 用 高 级 语言 编写 的 ) 来 完成 对 过 程 参数 的 处 理 。 长 期 以 来 的 做 法 是 ， 在 调 
用 过 程 之 前 将 它们 放 在 堆栈 上 。 

在 过 程 调用 期 间 ， 另 一 个 必须 要 程序 员 (或 编译 器 ) 解决 的 问题 是 对 过 程 局 部 变量 的 管理 。 同 样 ， 
在 这 方面 长 期 以 来 的 做 法 是 在 堆栈 上 分 配 所 有 的 局 部 内 存 。 这 样 做 的 最 大 的 好 处 是 可 以 启用 递归 : 每 
当 一 个 程序 被 调用 时 ， 它 的 参数 和 局 部 内 存 都 能 够 与 之 前 被 调用 的 程序 区 分 开 。 

图 3.4 通过 跟踪 执行 示例 程序 "以 及 执行 过 程 中 每 条 指令 对 应 的 进程 堆栈 状态 ,来 说 明了 这 一 点 。 
这 里 ， 一 个 存储 在 位 置 1000000 的 过 程 被 主 程序 所 调用 。 该 过 程 有 两 个 参数 ， 分 别 存储 在 位 置 20002 和 
20010 中 。 


进程 代码 主线 


ooo | OAD [ri [2000 aie 


a Don e e sn | 


内 部 变量 2 
内 部 变量 


JR 


前 六 1 个 指令 实现 了 在 堆栈 上 推送 过 程 参数 的 动作 。 需 要 注意 的 是 ， 在 这 里 我 们 认为 每 个 参数 为 4 
个 单位 长 ， 因 此 使 用 ADD SP #-4; 当然 ,按照 惯例 ， 当 堆栈 减少 时 ， 堆 栈 指针 的 值 也 随 之 减少 。 

第 七 条 指令 (位 于 地 址 100060) 用 来 在 堆栈 上 为 过 程 准备 内 部 存储 空间 ， 在 这 个 例子 中 ， 需 要 为 
这 两 个 4 个 单位 长 的 变量 准备 8 个 单位 的 存储 空间 。 

在 第 八条 指令 中 ， 实 现 过 程 代码 的 调用 。 这 一 次 ，CPU 将 PC 上 的 值 (也 是 4 个 字 节 长 ) HERA BE 
RE; 然后 ，CPU 将 该 过 程 的 地 址 加 载 到 PC 中 。 此 时 ， 该 过 程 的 堆栈 帧 已 经 建立 。 

执行 该 过 程 的 第 一 条 指令 是 获取 第 一 个 参数 的 值 ， 我 们 知道 这 个 值 位 于 堆栈 上 ， 恰 好 高 于 堆栈 指 
针 20 个 单位 。 类 似 地 ， 相 对 于 堆栈 指针 的 值 ， 间 接 访 问 男 一 个 参数 和 内 部 变量 。 (我 们 故意 没有 显示 
堆栈 的 实际 内 存 位 置 : 使 用 这 种 寻 址 方式 ， 只 要 堆栈 正确 初始 化 ， 该 位 置 就 是 无 关 紧 要 的 ! 这 个 功能 
非常 强大 ， 它 消除 了 绝对 寻 址 的 需要 。 同 样 ， 该 功能 可 以 直接 支持 递归 ， 因 为 相同 的 代码 将 使 用 一 组 
新 的 参数 和 新 的 内 部 存储 空间 执行 程序 ) o 

过 程 完成 后 ， 执 行 RTP 指令 ,使 CPU 弹出 堆栈 并 将 程序 计数 器 恢复 为 存储 值 。 因 此 ， 程 序 控制 返 
回 到 主 程序 。 示 例 中 的 最 后 一 条 指令 将 堆栈 恢复 到 原始 状态 

这 里 需要 注意 的 一 个 小 问题 是 ， 过 程 可 能 是 一 个 函数 ， 也 就 是 说 ， ge 个 值 。 该 值 如 何 
传递 给 调用 者 呢 ? 将 其 存储 在 堆栈 上 是 实现 这 一 目的 的 一 种 方法 。 不 过 ,C 言 编译 器 已 经 通过 寄存 


O 那 时 ， 它 利用 了 UNIX Finger 实用 程序 的 漏洞 。 令 人 惊讶 的 是 ， 同 样 的 漏洞 仍然 是 有 意义 的 。 
O ”该 示例 程序 故意 未 进行 优化 。 
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器 实现 返回 值 的 传递 ， 因 为 它 的 速度 更 快 。 
以 上 讨论 了 有 关 过 程 调用 的 相关 内 容 。 由 于 新 的 控制 转移 形式 的 出 现 ， 接 下 来 将 进入 到 CPU 机 制 
的 下 一 个 细 广 层面 。 \ 






3.2.4 中断 和 异常 一 CPU 循环 细节 x 太太 

到 目前 为 止 ， 前 面 设计 的 简单 CPU 只 能 处 理 一 个 进程 (本 节 将 继续 使 用 这 一 限定 )。 该 进程 的 行 
为 是 由 其 主线 代码 中 的 指令 集 以 及 将 “控制 转移 ”到 的 过 程 所 确定 的 ， 但 仍然 是 绝对 可 预测 (有 了 时 称 
为 “确定 性 ”或 “同步 的 ”) 的 方式 。 这 种 类 型 的 CPU 存在 于 头 几 十 年 的 计算 机 中 ， 并 且 大 体 上 可 以 
被 用 来 执行 内 存 中 的 运算 处 理 。 特 别 适 合 于 执行 复杂 的 数学 算法 ， 只 要 不 需 进 行 太 多 的 IO 设备 访问 。 

但 是 ， 当 需要 处 理 L/O 请求 时 会 发 生 什 么 呢 ? 使 用 目前 的 设计 ， 唯 一 的 解决 方案 是 拥有 一 个 知道 
如 何 访问 给 定 WO 设备 的 子 程序 ， 如 一 个 磁盘 或 一 个 打印 机 。 可 以 假设 这 样 的 设备 是 内 存 映射 的 : 在 
主 内 存 中 有 一 个 写 这 种 命令 ( 读 或 写 ) 的 位 置 ， 将 一 个 指针 传递 给 这 类 数据 驻 留 (或 将 被 读 入 ) 的 数 
据 缓冲 区 ， 以 及 可 以 检查 操作 状态 的 位 置 。 启 动 命 令 后 ， 进 程 代 码 只 能 执行 紧凑 循环 检查 该 状态 ， 除 
此 之 外 不 能 执行 任何 其 他 的 操作 。 

从 历史 的 角度 来 看 ， 事 实证 明 ， 对 于 CPU 密集 型 的 数值 计算 ， 这 样 的 方案 多 少 还 能 令 人 满意 ， 因 
为 VO 处 理 不 是 频繁 的 动作 一 一 与 计算 相 比 。 然 而 ， 对 于 商业 计算 来 说 ， 需 要 大 量 使 用 磁盘 、 多 个 磁 
带 机 和 打印 机 ， 因 此 浪费 在 轮 询 上 的 CPU 周期 是 主要 的 性 能 瓶颈 。 随 着 设备 越 来 越 复 杂 ， 这 个 问题 将 
进一步 恶化 ， 因 为 需要 保持 交互 式 设 备 专门 的 协议 ， 而 这 需要 更 频繁 的 轮 询 和 等 待 。 例 如 ， 在 需要 将 
打印 机 的 每 个 字 节 分 别 进行 单独 写 入 的 情况 下 ， 根 据 打印 机 对 上 一 个 字 节 的 响应 处 理 执行 具体 的 操作 。 
出 于 这 个 原因 ， 轮 询 的 功能 被 转移 到 CPU 循环 中 ， 代 价 是 在 计算 模型 上 发 生 了 变化 ， 而 且 在 这 方面 也 
发 生 了 戏剧 性 的 变化 。 

变化 的 要 点 是 : 鉴于 之 前 是 由 程序 员 在 程序 中 确定 调用 子 程 序 的 特定 位 置 (无 论 是 从 主线 或 其 他 
子 程序 ) ， 现 在 可 由 CPU 根据 与 设备 的 通信 自行 决定 对 某 个 子 程 序 的 调用 。 这 样 ，CPU 可 以 有 效 地 中 
断 程 序 中 的 指令 链 ， 这 意味 着 CPU 还 需要 能 够 准确 地 回 到 这 条 指令 链 中 被 中 断 的 位 置 。 这 里 涉及 的 术 
语 很 多 : 由 设备 发 出 的 ， 相 对 于 正在 执行 的 程序 能 够 异步 到 达 的 信号 ， 被 称 为 中 断 ; 从 中 断 的 那 一 刻 
开始 ， 直 到 原始 指令 线程 恢复 执行 时 产生 的 所 有 操作 ， 被 称 为 中 断 处 理 。 

当然 ， 用 于 处 理 来 自 设 备 输 入 的 实际 代码 中 断 处 理 程序 必须 由 程序 员 编 写 。 但 是 ， 
由 于 这 个 例 程 不 会 被 其 他 程序 显示 调用 ， 所 以 它 必 须 被 放置 在 CPU 可 以 找到 它 的 指定 内 存 位 置 ， 
该 位 置 被 称 为 中 断 问 量 。 通 般 ， 每 个 设备 都 拥有 目 己 的 加 量 ， 或 者 甚至 一 组 用 于 与 设备 相关 联 的 
不 同事 件 的 问 量 。 实 际 上 ， 这 方面 的 内 容 是 非常 复 淋 的 ,但 是 此 处 的 介绍 不 需要 达到 这 样 的 详细 
程度 。 在 初始 化 时 ， 程序 必须 将 正确 的 中 断 程序 地 址 放 入 分 配给 中 断 癌 量 的 插 模 中 。 当 CPU 检测 
到 来 自 设 备 的 信号 时 ， 它 将 跳 转 到 相应 的 中 断 程序 。 当 中 断 被 服务 后 ， 控制 将 被 返回 到 中 断 执行 
点 ， 恢 复原 始 程序 的 执行 。 

该 机 制 提 供 了 处 理 与 执行 程序 异步 的 外 部 事件 的 方法 。 由 于 一 些 原因 〈 稍 后 将 介绍 清楚 ) ， 同 样 的 
机 制 也 被 用 于 处 理 实际 上 与 执行 程序 同步 的 某 些 事件 。 它 们 是 同步 的 ， 因 为 它们 正 是 由 所 执行 的 指令 
引起 的 〈 因 此 ， 作 为 结果 ， 最 终 可 能 无 法 执行 )。 此 类 事件 的 重要 示例 如 下 : 

1) 计算 异常 〈 如 学 试 除 以 零 ) 。 

2) 内 存 引 用 异常 (例如 尝试 读 取 或 写 人 内 存 中 不 存在 的 位 置 ) 。 

3) 尝试 执行 不 存在 的 指令 (或 在 当前 上 下 文中 非法 的 指令 )。 

4) 直接 插入 处 理 异常 的 显示 请 求 ( 称 为 陷阱 )。 在 CPU 中 ,这 是 由 一 条 指令 (形式 为 TRAP < 
trap number >) 引起 的 ， 该 指令 可 以 用 这 个 陷阱 把 一 个 参数 “陷阱 号 ”与 一 个 特定 的 中 断 和 癌 量 进行 关 
联 ， 以 便 不 同 的 陷阱 号 可 以 被 不 同 地 处 理 。 

有 关 陷 阱 指令 基本 需求 的 内 容 将 在 后 面 详 细 说 明 ， 一 个 应 用 就 是 在 调试 时 用 来 设置 断 点 。 当 开发 
人 员 和 希望 程序 在 特定 的 位 置 停止 ， 以 便 可 以 检查 内 存 时 ， 结 果 指 令 将 被 陷阱 指令 替换 ， 如 图 3. 5 所 示 。 

虚拟 机 管理 程序 也 是 用 这 一 技术 来 处 理 非 虚拟 化 指令 的 ， 稍 后 会 详细 进行 说 明 。 

图 3.6 对 以 下 讨论 的 内 容 进 行 了 说 明 。 
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ADD R1, #1 2A 0001 01 
STORE R1, @R2 B3 0001 02 


保存 指令 并 使 
用 TRAP#I1 替 换 


While TRUE 
{ 
Fetch the instruction pointed to by the PC; 
Advance the PC to the next instruction; 
Execute the instruction; 
If fan exception #x has been raised) OR 
(lan interrupt #x has been raised) AND interrupts are enabled) 
{ 
If it is an exception 
Restore the previous PC value; 
Save the STATUS Register and the PC @SP; 中 断 堆 栈 帧 
PC = Interrupt Vector [#x — = 
中 断 服务 例 程 Re 
保存 的 PC 


保存 的 
STATUS 寄存 器 


保存 的 
寄存 器 镜像 





我 们 准备 对 图 3 3 中 简化 的 CPU 循环 进行 修改 ， 新 的 循环 会 检查 中 断 或 异常 信号 。 需要 注意 的 是 ， 
就 CPU 而 言 ， 处 理 是 相当 确定 的 : 在 当前 指令 执行 结束 时 进行 检查 ， 无 论 信号 何 时 到 达 。CPU 的 内 部 
电路 可 以 让 它 确定 中 断 或 异常 的 类 型 ， 这 体现 在 中 断 号 x 中 。 该 数字 作为 中 断 向 量 表 的 索引 - 。 在 处 理 
中 断 和 处 理 异 常 之 间 存 在 着 重大 的 区 别 : 导致 异常 的 指令 尚未 执行 ; 因此 ， 要 被 存储 的 PC 的 值 必须 保 
持 不 变 。 除 此 以 外 ， 中 断 和 异常 之 间 的 处 理 不 存在 区 别 ， 并 且 为 了 避免 元 余 重复 ， 本 节 的 其 余部 分 也 
将 使 用 “中 断 ” 一 词 来 表示 “中 断 或 异常 ”。 

图 3. 6 左边 的 表 表 明 ， 处 理 中 断 x 的 中 断 服 务 例 程 的 开始 位 置 在 30000000, CPU 处 理 这 一 代码 的 
过 程 与 程序 处 理 该 代码 的 过 程 相同 。 不 过 ， 在 特殊 的 情况 下 ， 还 需要 有 一 套 特 殊 的 操作 过 程 。 不 同 的 
CPU 在 这 里 做 不 同 的 事情 ， 我 们 的 CPU 多 少 能 够 做 一 些 现代 CPU 做 的 事情 。 

为 此 ， 我 们 的 CPU 通过 将 当前 STATUS 寄存 器 的 值 保 存在 进程 堆栈 中 来 启动 程序 。 原 因 在 于 ， 执 


O 在 早期 的 CPU 中 ， 中 断 向 量 表 通 常 处 于 低 内 存 (存储 器 ) 地 址 中 ， 一 般 从 地 址 0 开始 。 现 代 CPU 有 一 个 指向 该 表 的 特 
殊 寄 存 器 ， 可 以 将 其 放置 在 存储 器 的 任何 位 置 上 。 从 这 个 意义 上 来 说 ， 即 使 在 一 个 多 用 户 环境 中 仍然 只 处 理 单 用 户 / 单 
进程 的 执行 ， 也 可 以 使 用 这 种 特殊 的 寄存 器 。 通 过 这 样 的 寄存 器 设计 ， 有 助 于 在 多 用 户 环境 下 实现 对 内 存 特定 部 分 访问 
保护 的 目的 ， 该 目的 是 操作 系统 和 虚拟 机 管理 程序 的 一 项 重要 任务 。 在 下 一 个 CPU 循环 修改 中 ,将 解决 这 个 问题 。 
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meee 


二 计算 技术 与 商业 失势 = 


行 新 指令 时 ， 根 据 上 一 条 指令 的 结果 ，STATUS 寄存 器 中 标志 位 体现 的 所 有 条 件 都 将 消失 。 例 如 ， 如 采 
程序 在 某 个 数字 大 于 另 一 个 数字 时 需要 进行 分 支 ， 则 可 能 会 导致 以 下 几 个 指令 的 产生 : 

1) 两 个 指令 将 相应 的 值 加 载 到 RO 和 RI 中 。 

2) 一 个 从 RO 中 减 去 RI 的 指令 。 

3) 分 支 的 最 后 一 条 指令 ， 取 决 于 减法 的 结果 是 否 为 正 。 

最 后 一 条 指令 的 执行 取决 于 根据 第 三 条 指令 执行 结果 而 设置 的 标志 ， 因 此 如 果 进 程 在 这 条 指令 之 
后 被 中 断 ， 那 么 当 它 继续 ， 必 须 保留 该 标志 。 

STATUS 寄存 人 保存 后 ，CPU 将 保存 PC 的 值 ， 就 像 使 用 过 程 调用 堆栈 帧 执行 的 操作 一 样 ， 然 后 开 
始 执行 中 断 服务 例 程 。 

后 者 的 第 一 条 指令 必须 是 DISI (禁用 中 断 ) 执行 。 实 际 上 ， 从 CPU 发 现 一 个 正在 等 候 的 中 断 ， 直 
到 返回 到 这 条 指令 ， 一 切 都 是 由 CPU 本 号 完成 的 ， 它 不 会 中 断 它 自己 。 但 是 来 自 同一 设备 的 下 一 个 中 
断 可 能 已 经 到 了 。 如 果 CPU 处 理 它 ， 这 个 中 断 例 程 将 被 中 断 。 有 问题 的 设备 (或 恶意 操纵 ) 将 导致 一 
组 递归 调用 ， 造 成 堆栈 增长 ， 直 到 它 溢出 ， 最 终 这 将 导致 整个 系统 关闭 。 因 此 ， 在 执行 一 些 关 键 指令 
期 间 ， 至 少 要 在 很 短 的 时 间 内 ， 有 必要 将 中 断 茜 用 掉 。 

接 下 来 ， 我们 的 示例 中 断 服务 例 程 使 用 SAVEREGS 指令 将 其 余 的 寄存 硕 〈 不 包括 PC 和 STATUS 寄 
存 器 ) 保存 在 堆栈 中 。 这 样 ， 实 际 上 整个 进程 的 状态 得 到 了 保存 。 即 使 所 有 执行 的 中 断 服务 例 程 都 使 
用 该 进程 堆栈 ， 它 也 可 以 独立 于 进程 本 身 执行 ,或 与 进程 同时 执行 ， 而 完全 不 必 了 解 具体 发 生 了 什么 。 

中 断 服务 例 程 的 其 余 代 码 处 理 其 他 需要 做 的 事情 ， 当 它 完成 后 ， 它 会 恢复 进程 的 寄存 器 (通过 
RESTREGS 指令 )， 并 允许 中 断 (通过 倒数 第 二 条 指令 ENI) 。 最 后 一 条 指令 RTT， 告 诉 CPU 恢复 PC 和 
STATUS 寄存 融 的 值 。 下 一 条 CPU 将 执行 的 指令 正 是 进程 被 中 断 时 的 那 条 指令 。 

通常 在 CPU 的 情况 下 ， 还 有 一 个 指定 的 STATUS 寄存 器 标志 (位)， 指 示 中 断 是 否 被 禁止 。DISI 只 
设置 此 标志 ，ENI 将 其 复位 。 

调试 工具 是 一 个 比较 有 说 明 性 的 例子 ， 如 前 所 述 : 该 工具 可 以 让 我 们 设置 断 点 ， 以 便 在 到 达 断 点 
时 分 析 计 算 的 状态 。 目 的 是 让 用 户 在 代码 的 特定 指令 处 设置 断 点 ， 使 得 当 程序 执行 到 该 指令 时 停止， 
通过 输入 命令 交互 地 进行 分 析 。 此 时 ， 调 试 器 显示 寄存 器 的 相关 信息 并 等 待 用 户 的 下 一 个 命令 。 

我 们 的 调试 工具 由 command_line ( ) 子 例 程 实现 ， 可 被 TRAP #1 服务 例 程 调 用 ， 能 够 接受 以 下 6 


Van y 和 
个 命令 : 


1) Set < location > ， 在 代码 中 设置 要 调试 的 断 点 。 因 为 这 可 能 需要 重 置 ,命令 的 效果 是 : OMA 
指令 (存储 在 <location >) 和 < location > 的 值 都 存储 在 各 自 的 全 局 变量 中 。@ 该 指令 被 替换 为 TRAP # 
1， 图 3.5 描述 了 这 条 命令 的 效果 。 遵 循 惯例 ， 使 用 十 六 进 制 符 号 来 显示 内 存 值 。 因 此 ，TRAP #1 指令 
的 操作 码 恰 好 是 F1, 

2) Reset， 将 被 陷阱 蔡 代 的 原始 指令 返回 到 它 的 位 置 。 

3) Register <name > ，< value > ， 用 它 的 值 设置 了 一 个 命名 的 寄存 器 。 所 有 CPU 寄存 器 (除了 PC 
和 STATUS 寄存 器 需要 单独 的 处 理 ) 的 镜像 都 被 保持 在 一 个 全 局 结构 registers_struct 中 ， 所 以 当 用 户 输 
人 一 条 命令 时 ， 如 Register R1 ，20 ， 将 会 执行 一 次 赋值 “registers_struct. RI =20;”。 

4) Co， 基 于 registers_struct 中 存储 的 寄存 占 的 各 个 值 ， 开 始 执行 代码 。 

5) Show <memory_location > ，< number_of_units > ， 人 简单 地 提供 了 一 种 由 参数 指定 的 内 存 块 的 核 
心 转 储 功能 。 

6) Change <memory_location >, < value > ， 这 可 以 让 我 们 更 改 内 存单 元 的 值 。 

Go ( ) 过 程 和 中 断 向 量 例 程 TRAP_1_Service_Routine ( ) 如 图 3.7 所 示 。 稍 后 将 对 这 两 个 程序 进 
行 介 绍 ， 先 从 初始 化 开始 。 起 初 ， 我 们 要 : 

1) 将 指向 TRAP_1_Service_Routine ( ) 的 指针 地 址 存储 在 TRAP #1 指令 的 中 断 向 量 中 (该 位 置 与 
具体 的 CPU 有 关 ， 由 CPU 手册 提供 ) 。 

O 不 同 的 CPU 会 以 不 同 的 方式 来 处 理 这 个 问题 。 一 些 CPU 采用 将 所 有 的 寄存 器 自动 保存 在 堆栈 上 ; 还 有 一 些 CPU 希望 中 
断 例 程 只 保存 那些 需要 保存 的 目标 。 
O 在 本 章 后 面 的 内 容 中 ， 将 定义 “自省 ”这 个 术语 。 我 们 要 描述 的 机 制 是 一 种 简单 自省 的 例子 。 
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2) 执行 TRAP #1 指令 ， 这 将 导致 TRAP_1_Service_Routine ( ) 的 执行 。 后 者 调用 command_line 
( ) 过 程 ， 它 会 提示 用 户 输入 命令 ， 然 后 解释 命令 。 
Go( ) 代 码 TRAP #1 服务 例 程 


TRAP #1 向 量 存储 TRAP 1 Service 例 程 的 地 址 
#DISI; /* 禁用 中 断  */ 
registers struct.SP = HDISI: /* mhi */ 
#SAVEREGS @registers struct; 
#ENI; /* 激活 中 断 */ 
display (registers struct, PC, 
STATUS) ; 


command line () ; 


registers struct.SP +4; 


#RESTREGS @registers struct; 
#STORE PC @SP+8; 
#STORE STATUS @SP+4 


* 将 PC 和 STATUS 放置 在 堆栈 
帧 中 的 正确 位 置 


#ENI; /* OR HA er 
#RTI; 





} 








o o lae 断 服务 例 程 ，， 
条 指令 位 于 内 存 地 址 300000 处 ) 执行 到 位 于 地 址 


现在 开始 调试 。 例 如 ， 想 让 一 个 程序 ( 它 的 第 一 
350000 处 的 指令 时 停止 。 

输入 以 下 3 个 命令 : 

>Register PC, 300000 

S65 . | ee el 

“fe Rae Go () 时 ， 它 首先 弹出 堆栈 来 填补 调试 器 的 command - line 过 程 帧 (EIT, A 
会 通过 执行 RTP 来 从 这 个 调用 中 返回 ) 。 然 后 ， 它 将 存储 在 registers_struct 中 的 寄存 器 值 传送 给 CPU, 
对 于 PC 和 STATUS 寄存 器， 分 别 重 复 相同 的 任务 ， 其 值 必须 在 堆栈 上 修改 以 构建 正确 的 堆栈 帧 。 最 
后 ， 执 行 RTI 指令 。 

这 将 使 程序 移动 。 当 它 到 达 陷 阱 指令 时 ，TRAP 处 理 程序 将 被 调用 。 因 此 ， 将 会 看 到 寄存 器 的 值 和 
一 个 提示 。 可 以 查看 内 存 ， 还 可 以 改变 变量 的 什 ， 蔡 换 陷 阱 指令 或 设置 另 一 个 陷阱 。 

需要 注意 的 是 ，CGo () 过 程 实际 上 已 经 完成 了 中 断 处理 : RTI 指令 不 是 陷阱 服务 例 程 的 一 部 分 。 
可 以 在 内 存 中 有 多 个 程序 ， 并 且 通 过 适当 地 修改 寄存 器 ， 可 能 会 导致 另 一 个 程序 通过 “返回 ”运行 。 

戏剧 性 的 是 : 可 以 根据 需要 同时 运行 多 个 进程 ! 

为 此 ， 为 每 个 进程 分 配 适 当 的 内 存 〈 称 为 堆 ) 用 于 堆栈 和 其 余 的 进程 内 存 ， 在 堆 中 保存 它 运行 时 
的 数据 。 同 时 还 建立 了 适当 的 堆栈 帧 。 在 后 者 中 ，PcC 的 值 必须 指向 进程 代码 的 开始 ， 并 且 SP 的 值 必 
须 指向 进程 的 堆栈 (其 余 的 寄存 器 在 这 一 点 上 并 不 重要 ) 。 只 需要 执行 图 3.5 中 最 后 的 3 条 指令 。 当 
RTI 指令 执行 时 ， 就 可 以 实现 我 们 的 目的 ” 。 

因此 ， 到 目前 为 止 使 用 本 书 所 描述 的 CU， 尽管 如 此 简单 ， 但 是 已 经 向 虚拟 化 迈进 了 第 一 步 ， 即 
多 重 处 理 。 有 了 这 一 步 ， 可 以 让 多 个 进程 ( 可 能 属于 不 同 的 用 户 ) 共享 CPU。 这 是 “从 外 部 ”的 视角 
来 看 待 多 处 理 。“ 内 部 ”的 视角 〈 从 进程 的 视角 ) 就 是 进程 被 赋予 了 自己 的 CPU, 

拥有 CPU 的 感 党 是 迈 癌 虚 拟 化 的 第 一 步 。 但 是 ， 如 果 没 有 虚拟 化 内 存 ， 那 么 “虚拟 ”的 理想 就 不 
可 能 实现 ， 这 让 一 个 进程 “认为 ” 它 有 自己 的 完整 内 存 空间 ， 地 址 从 0 开始。 

有 关 这 两 个 方面 (CPU 和 内 存 虚 拟 化 ) 的 内 容 ， 将 在 接 下 来 的 两 节 中 讨论 。 事 实证 明 ， 增 加 新 功 


O 这 里 RTI 指令 的 效果 与 gor Stravinsky 的 钢琴 曲 Petrushka)! 中 老 魔 法 师 的 长 笛 具 有 相似 的 效果 : 施 过 魔法 后 ， 当 被 长 
笛 的 笛 音 触动 时 ， 木 偶 活 了 过 来 并 开始 跳舞 。 
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能 需要 改变 体系 结构 。 随 着 多 重 处 理 需求 的 明确 ， 我 们 的 CPU 将 进一步 发 展 ， 以 实现 对 它们 的 支持 。 


3.2.5 ”多 重 处 理 及 其 要 求 一 一 操作 系统 的 需求 ”* 雪 *。 
考虑 只 有 两 个 进程 的 情况 。 为 了 跟踪 它们 的 进度 ， 需 要 创建 并 填充 一 个 数据 结构 ， 即 一 个 数组 ， 
如 图 3. 8 所 示 ， 其 中 每 个 条 目 包 含 了 : 

1) 进程 寄存 器 的 完整 值 集 (PC 初始 指向 相应 程序 代码 分 段 ，SP 指 加 堆栈 ) 。 

2) 进程 的 状态 告诉 我 们 进程 是 否 中 等 待 某 一 事件 〈 例 如 IO 的 完成 ) ， 包 准备 运行 ， 或 号 实际 上 
已 运行 。 当 然 ， 这 两 个 进程 中 只 有 一 个 进程 可 以 处 于 后 一 种 状态 〈 对 于 这 个 问题 ， 使 用 一 个 CPU 时 ， 
只 有 一 个 进程 可 以 运行 ,无 论 有 多 少 个 其 他 进程 ) 。 

3) 分 段 和 页 表 指 针 (参见 3.2.6 节 ) ， 间 接 指 定 了 进程 堆 内 存 的 地 址 和 大 小 〈 即 为 其 全 局 变量 分 
配 的 内 存 ) 。 














a Eee EN Soo 


其 他 需要 内 部 处 理 的 进程 条 目 也 可 以 容易 地 想象 出 来 ， 但 是 只 要 使 用 这 种 简单 的 结构 (被 称 为 进 
程 表 ) ， 就 可 以 保持 这 些 进 程 ， 用 上 一 节 结 尾 所 描述 的 方法 启动 它们 ， 并 在 中 断 期 间 介 入 它们 的 工作 
周期 。 

还 可 以 很 容易 地 看 到 在 这 个 示例 中 有 “两 个 ”进程 ， 这 里 所 举例 的 进程 数量 并 不 绝对 。 只 要 内 存 
和 设计 允许 ， 该 表 可 以 有 很 多 的 条 目 。 

需要 用 来 管理 进程 的 程序 被 称 为 “操作 系统 ”， 其 目标 为 一 般 的 管理 提供 一 个 完美 的 例子 : 操作 系 
统 必须 完成 很 多 工作 ， 但 无 论 它 做 什么 都 要 快速 完成 ， 而 不 会 明显 地 干扰 它 管理 的 进程 。 

这 些 生命 周期 中 的 重大 事件 发 生 在 中 断 期 间 。 为 此 ， 此 时 的 操作 系统 只 不 过 是 一 个 库 一 一 一 组 从 
主线 代码 或 中 断 服务 例 程 中 调用 的 程序 。 顺 便 提 一 句 ， 系 统 甚至 可 以 通过 处 理 时 钟 中 断 并 检查 CPU 绑 
定 进程 是 否 超过 了 它 所 占用 的 时 间 份 额 ( 即 允 许 拥 有 CPU 的 时 间 )， 在 这 些 进程 间 平均 分 配 CPU (这 
个 份额 被 称 为 量子 或 时 间 片 。 在 配置 时 间 对 它 的 值 进行 赋值 ， 使 我 们 能 够 支持 CPU 虚拟 化 声明 : 在 
个 进程 之 间 共 享 速度 为 6Hz 的 CPUS ， 将 使 每 个 进程 被 赋予 一 个 速度 为 LN Hz 的 虚拟 CPU) 。 

总 体 来 说 ， 操 作 系 统 负 责 进程 的 创建 和 调度 并 为 它们 分 配 资源 。 人 简 而 言 之 ， 这 是 通过 仔细 维 
护 一 组 队列 来 实现 的 。 在 其 生命 周期 中 ， 一 个 进程 总 是 在 改变 它 的 状态 。 除 非 进程 正在 执行 ， 否 
则 它 总 是 在 等 待 着 其 他 事件 (例如 ， 文 件 记 录 被 读 取 ， 来 自 其 他 进程 的 消息 ， 或 者 在 它 准 备 执 行 
时 等 待 CPU ) 。 操 作 系 统 确 保 每 个 进程 始终 处 于 正确 的 队列 中 。 我 们 将 继续 回 到 操作 系统 的 主题 


O CPU 的 速度 以 它 所 支持 的 时 钟 频 率 来 衡量 。 在 这 方面 ， 它 非常 像 音 乐 家 演奏 使 用 的 节拍 器 。 音 乐 〈 指 令 执 行 ) 相同 ， 但 
可 以 播放 得 更 快 或 更 慢 ， 这 取决 于 乐曲 的 节奏 和 演奏 者 的 能 力 。 
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上 来 ， 但 这 个 问题 需要 进行 单独 的 研究 。 幸 运 的 是 ,在 这 部 分 内 容 ， 有 很 多 优秀 上 且 全 面 的 参考 
书 “…， 对 此 强烈 推荐 。 

回 到 所 掌握 的 体系 结构 上 来 ， 需 要 注意 3 个 基本 的 问题 。 

第 一 个 问题 是 用 户 程序 必须 以 某 种 方式 了 解 其 代码 和 数据 所 在 内 存 中 的 具体 地 址 ， 但 是 这 些 地 址 
只 有 在 运行 时 才 会 知道 。 关 于 这 个 问题 ， 将 在 下 一 节 中 给 予 解决 。 

第 二 个 问题 是 目前 没有 办 法 防止 一 个 进程 访问 另 一 个 进程 的 内 存 (无 论 是 出 于 恶意 的 原因 ， 还 是 
仅仅 简单 地 由 于 程序 员 的 失误 引起 的 ) 。 更 糟 的 是 ， 每 个 进程 还 可 以 访问 操作 系统 的 数据 ， 因 为 在 这 一 
点 上 ， 没 有 办 法 将 其 与 用 户 数据 相 区 分 。 

第 三 个 问题 是 无 法 阻止 进程 执行 某 些 指令 〈 人 例如， 禁用 中 断 ) 。 如 果 用 户 在 他 的 程序 中 禁用 中 断 ， 
计算 机 可 能 会 变 成 舍 子 和 哑巴 。 顺 便 提 一 下 ， 这 是 很 好 的 也 是 非常 重要 的 一 点 ， 需 要 一 些 细 化 的 考虑 。 
因为 讨论 的 系统 代码 只 是 一 个 系统 例 程 库 ， 它 需要 被 一 个 或 另 一 个 进程 执行 。 实 际 上 ， 进 程 的 程序 可 
以 直接 调用 相应 的 库 程序 ， 也 可 以 在 中 断 期 间 调 用 它 ， 这 是 在 中 断 进 程 的 堆栈 中 处 理 的 。 然 而 ， 显 而 
易 见 的 是 ， 只 有 系统 代码 才 应 当 被 允许 禁用 中 断 ， 而 不 是 用 户 程序 代码 。 因 此 ， 这 里 的 问题 还 是 ， 用 
户 代码 到 目前 为 止 仍然 无 法 与 系统 代码 进行 区 分 。 

通过 认识 到 CPU 必须 有 两 种 执行 模式 ， 因 此 最 后 一 个 问题 已 经 被 解决 了 。 这 两 种 模式 是 用 户 模 式 
和 系统 模式 。 前 者 用 于 用 户 程 序 和 一 些 非 关 键 的 系统 代码 。 后 者 用 于 关键 的 操作 系统 代码 (或 内 核 )。 

此 ， 某 些 指 令 必 须 只 能 在 系统 模式 下 执行 。 相 应 地 ，CPU 和 现在 的 操作 系统 已 经 发 展 到 支持 这 一 
原则 。 

如 何 实现 它 呢 ?我 们 观察 到 系统 代码 分 别 在 以 下 情况 时 会 被 调用 : 

1) 在 用 户 程 序 中 显 式 调 用 。 

2) 中 断 (或 异常 ) 发 生 时 。 

为 了 确保 仅 通 过 指定 的 门 才能 进入 到 系统 处 理 ， 假设 所 有 的 系统 调用 只 能 通过 “异常 处 理 ” 的 方 
法 来 实现 ， 即 通过 执行 TRAP 指令 才能 实现 (现在 已 经 履行 了 前 面 的 承诺 ， 解 释 了 这 一 指令 的 进一步 
使 用 ) 。 每 个 需要 访问 系统 资源 或 外 部 设备 的 程序 都 必须 这 样 做 。 这 将 上 述 第 一 种 情况 变 为 第 二 种 : 现 
在 只 能 通过 中 断 或 异常 调用 系统 代码 。 

进一步 假设 CPU 是 在 系统 模式 下 启动 的 ， 且 每 当 处 理 中 断 或 异常 时 ， 自 动 进 入 系统 模式 。 因 此 ， 

只 有 当 (由 内 核 ) 明确 指示 这 样 做 时 ，CPU 才能 从 系统 模式 切换 到 用 户 模 式 。 
”在 下 文中 ， 主 要 的 想法 是 确保 在 用 户 模式 下 进程 能 做 的 事情 是 有 限 的 ， 只 能 影响 进程 本 身 ， 而 对 
其 他 进程 或 操作 系统 没有 影响 。 为 了 实现 这 个 目标 ， 首 先 需要 让 CPU 知道 什么 样 的 代码 正在 运行 ， 是 
用 户 代码 还 是 操作 系统 代码 。 其 次 ， 需 要 限制 在 用 户 模式 下 执行 的 动作 。 再 次 ， 该 指导 原则 是 CPU 在 
系统 模式 下 局 动 ， 并 且 只 有 在 被 明确 指示 这 样 做 的 时 候 ， 才 能 切换 到 用 户 模式 。 当 它 在 用 户 模式 下 ， 
CPU 的 行为 必须 受到 限制 。 

通过 引入 一 个 新 的 模式 标志 来 让 CPU 知道 操作 模式 ， 这 是 一 个 指示 系统 模式 (设置 时 ) 或 用 户 模 
A (复位 时 ) 的 比特 位 。 图 3.9 描述 了 管理 系统 和 用 户 状态 之 间 转 换 的 状态 机 。 


STATUS 寄存 器 模式 标志 值 


j ma 
l 系统 模式 ————— a | 


中 断 或 异常 (包括 由 尝试 执行 
特权 指令 引起 的 ) 








通过 添加 一 个 新 的 堆栈 指针 寄存 器 来 进一步 修改 CPU ， 所 以 现在 有 两 个 指针 寄存 器 : 一 个 〈 称 为 
系统 SP) 用 于 系统 模式 ， 另 一 个 〈 称 为 用 户 SP) 用 于 用 户 模 式 。 图 3. 10 对 这 项 修改 进行 了 解释 说 明 。 
指令 中 的 寄存 器 名 称 (或 相当 于 编码 ) 有 意 对 寄存 器 的 选择 保持 不 变 ， 但 是 由 于 STATUS 寄存 器 的 模 
式 标志 ，CPU 会 知道 要 使 用 哪 一 个 寄存 磊 。 


系统 堆栈 指针 


ans 
ee 





借助 这 种 变化 ， 操 作 系 统 现在 可 以 维护 两 个 堆栈 ， 一 个 用 于 执行 系统 代码 ， 另 一 个 用 于 执行 用 户 
代码 。 维 护 两 个 堆栈 的 概念 起 初 可 能 看 起 来 非常 复杂 ， 但 它 实 际 上 简化 了 操作 系统 的 设计 。 使 用 Bach 
著名 专著 "中 所 述 的 设计 ， 在 UNIX 操作 系统 中 已 经 取得 了 巨大 的 成 功 〈 细 心 的 读者 可 能 会 有 疑问 ， 哪 
个 堆栈 用 于 保存 中 断 处 的 CPU 状态 ?答案 是 : 系统 堆栈 。 中 断 或 异常 发 生 时 的 第 一 件 事 是 将 CPU 切换 
到 系统 模式 ， 这 将 自动 激活 系统 堆栈 指针 ) 。 

EFK, TARRA: 只 有 当 CPU 处 于 系统 模式 时 ， 这 些 指令 才能 成 功 执行 。RTI、DISI 和 EN 
是 这 类 指令 集中 的 前 三 个 。RTI 作为 特权 指令 的 原因 是 ， 它 可 以 促使 STATUS 寄存 器 的 恢复 ， 因 此 可 能 
导致 转 换 到 用 户 模式 。 正 如 之 前 假设 的 那样 ， 这 种 转换 可 能 只 是 由 于 系统 代码 的 执行 而 发 生 的 。 

目前 ，DISI 和 ENI 是 STATUS 寄存 器 中 标志 操作 的 助 记 符 。 使 用 我 们 的 CPU， 所 有 能 够 改变 STA- 
TUS 寄存 器 值 的 指令 (例如 ， 逻 辑 AND, OR 或 LOAD) 都 被 声明 是 具有 特权 的 。 类 似 地 ， 所 有 能 够 改 
变 系 统 堆栈 指针 的 指令 也 被 设计 成 具有 特权 ， 因 为 用 户 代码 甚至 无 法 引用 系统 SP。 

指令 使 用 的 背景 环境 是 决定 它 是 否 需要 特权 的 重要 因素 。 

为 此 ,假设 所 有 处 理 IO 访问 (存在 于 某 些 CPU H) 的 指令 具有 特权 。 将 在 3. 2.7 节 中 讨论 特权 
指令 的 处 理 问 题 。 首 先 ， 需 要 了 解 虚拟 内 存 管理 中 的 问题 ， 这 需要 一 整套 新 的 特权 指令 。 


3.2.6 ”虚拟 内 存 一 一 分 段 和 分 页 *** 4 

现代 虚拟 内 存 的 概念 体现 在 两 个 方面 : 首先 ， 使 用 虚拟 内 存 ， 进 程 不 必 知 道 已 经 被 分 配 的 实际 
(物理 内 存 ) 地 址 (相反 ， 进 程 会 “认为 ”每 次 运行 时 它 和 它 的 数据 都 占用 着 相同 的 内 存 地 址 )。 其 
次 ， 进 程 一 定 “ 认 为 ” 它 可 以 访问 所 有 的 可 寻 址 的 内 存 ， 其 数量 远 远 超过 了 可 用 的 物理 内 存 。 至 少 ， 
期 望 具有 64 位 地 址 的 计算 机 拥有 两 个 EB (2 x 10 字 节 ) 的 实际 内 存 是 不 常见 的 。 

除了 需要 一 些 先进 的 硬件 地 址 转换 机 制 是 实现 这 两 个 方面 所 通用 的 外 ， 在 其 各 自 的 需求 上 还 存在 
着 显著 的 差异 。 

先 从 第 一 个 方面 开始 。 在 两 个 进程 系统 的 情况 下 (如 图 3.8 所 示 ) ， 分 配给 它们 的 分 段 显然 也 将 具 
有 不 同 的 地 址 。 然 而 ， 使 用 我 们 的 CPU ， 每 个 指令 在 内 存 中 都 有 其 预先 定义 的 地 址 ， 并 且 内 存 也 允许 
绝对 寻 址 。 因 此 ， 如 果 进 程 2 的 代码 有 一 条 指令 LOAD R1，30000， 但 该 进程 的 数据 分 段 从 位 置 5000 FF 
始 ， 那 么 必须 以 某 种 方式 更 改 指令 。 一 种 方法 是 在 加 载 时 有 效 地 重 写 程序 ， 但 这 是 不 切实 际 的 。 更 好 
的 方法 是 采用 一 种 行 之 有 效 的 电子 工程 技巧 ， 如 图 3. 11 所 示 。 该 图 修改 了 图 3.2， 在 CPU 和 总 线 之 间 
插入 了 一 个 称 为 内 存 管理 单元 (Memory Management Unit, MMU) 的 转换 设备 。 该 设备 具有 将 逻辑 ( 即 
虚拟 ) 地 址 转换 为 实际 物理 地 址 的 表 (在 现代 CPU 中 ,该 设备 实际 上 已 经 被 集成 到 CPU 中 ) 。 
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单元 (MMU) 





假设 已 经 被 编程 (或 编译 的 进程 具有 下 述 假设 : 

1) 其 代码 从 位 置 x 处 开始 。 

2) 用 户 堆 栈 从 位 置 y 处 开始 。 

3) 系统 堆栈 从 位 置 z 处 开始 。 

4) AME t 处 开始 。 

其 中 每 个 都 是 一 个 连续 的 内 存 块 ， 即 一 个 分 段 。 事 实 上 ， 即 使 较 小 的 分 段 在 实践 中 也 可 以 被 考虑 
和 使 用 。 例 如 ,把 所 有 初始 化 代码 放 到 内 存 中 的 一 个 地 方 是 非常 便利 的 (初始 化 完成 后 ， 还 可 以 重复 
使 用 ) 。 分 段 可 以 通过 它们 的 编号 进行 枚 举 和 引用 。 

在 进程 加 载 时 ， 操 作 系统 将 其 代码 带 入 位 置 x 时 分 别 在 地 址 y z A t FP ch oP CHE RR ot Ee AE 
存 分 段 。 分 段 号 是 MMU 表 中 的 索引 。 该 表 中 的 一 个 条 目 是 操作 系统 填充 的 分 段 基 址 寄存 问 〈 例 如 ，x 
或 y') 。MMU 具有 将 逻辑 地 址 转换 为 物理 地 址 的 电路 。 因 此 ， 代 码 分 段 中 的 逻辑 地 址 a 被 转换 为 a - 
x+x'， 它 是 分 段 基 址 寄存 器 * 和 代码 分 段 内 的 偏 移 量 (a -x) 之 和 。 这 种 转换 可 以 通过 硬件 执行 得 非 
常 快 ， 所 以 它 对 时 序 的 影响 是 可 以 忽略 不 计 的 。 

MMU 还 有 助 于 确保 进程 不 能 读 取 或 写 人 超出 其 分 段 范围 之 外 的 空间 。 因 为 ， 在 MMU 表 中 还 有 为 

一 个 条 目 : 操作 系统 分 配 的 分 段 内 存 的 大 小 。 继 续 上 一 个 段落 的 例子 ， 如 果 蕊 是 该 代码 分 段 的 大 小 ， 
则 每 个 地 址 a 均 必 须 满足 不 等 式 a -=x<X。 如 果 没 有 满足 ， 则 会 生成 异常 。 同 样 ，MMU 电路 执行 与 常 
数 比 较 的 操作 也 是 非常 快 的 ， 因 此 其 影响 也 可 以 忽略 不 计 。 

图 3. 12 总 结 了 MMU 地 址 转换 过 程 。 补 充 来 说 ，MMU 在 安全 保护 方面 可 以 做 更 多 的 事情 ， 并 且 通 
常 也 是 这 样 做 的 。 例 如 ， 可 以 在 分 段 表 中 包含 指示 分 段 是 否 可 执行 的 标志 (从 而 防止 意外 “ 走 过 ” 数 
据 ， 以 及 防止 放置 在 数据 分 段 中 的 恶意 代码 在 后 期 被 执行 而 发 起 攻击 )。 附 加 标志 可 以 指示 分 段 是 否 为 
只 读 、 可 以 共享 等 状态 ， 可 以 允许 实现 多 样 性 的 状态 。 例 如 ， 操 作 系 统 库 可 以 被 放置 在 面 回 所 有 进程 
为 只 读 状态 的 代码 分 段 中 。 

MMU 一 般 通 过 它 的 寄存 器 向 外 部 提供 访问 。 它 几乎 不 需要 解释 为 什么 只 有 特权 指令 可 以 访问 MMU 
条 目 。 

内 存 虚 拟 化 的 第 二 个 方面 ， 就 是 创造 “无 限 ” 内 存 的 效果 ， 相 比 来 说 这 要 复杂 得 多 。 我 们 将 在 这 
里 对 它 进行 简单 的 介绍 ， 因 为 每 种 与 操作 系统 相关 的 书籍 ”基本 都 对 这 个 问题 给 出 了 详细 的 介绍 。 

首先 ， 这 里 所 采用 的 技术 还 解决 了 另 一 个 “记忆 碎片 ”的 问题 。 由 于 多 个 进程 在 运行 ， 因 此 对 于 
操作 系统 来 说 找到 一 块 连续 的 内 存 分 段 分 配给 其 他 的 进程 ， 基 本 是 不 可 能 的 。 不 过 ， 可 能 存在 足够 的 
“ 洞 ”( 即 没有 被 使 用 的 相对 较 小 的 内 存 ) 累加 在 一 起 来 提供 足够 的 连续 内 存 ， 这 些 “ 洞 ”会 被 合并 到 
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连续 的 空间 。 
于 ( 分 段 表 [分 段 号 的 .size)< 偏 移 
抛 出 分 段 违例 异常 


else 
物理 地 址 = 分 段 表 [ 分 段 号 所 + 偏 移 





为 了 实现 这 一 点 ， 可 以 使 用 为 一 种 类 型 的 1 MMU, CASI 2H EI 
为 “分 页 ”的 数组 。 所 有 的 分 页 均 具 有 相同 的 大 小 〈 总 是 将 其 选择 为 2 的 指数 ， 所 以 如 果 最 大 可 寻 址 
AFA n 并 且 分 页 大 小 为 /， 则 会 有 n/f 个 逻辑 分 页 )。 类 似 地 ， 实 际 的 物理 内 存 被 看 作 一 个 物理 帧 的 数 
组 ， 所 有 的 物理 帧 均 具 有 相同 的 大 小 ， 其 大 小 与 分 页 的 大 小 相同 。 每 个 进程 都 有 一 个 分 页 表 ， 可 以 将 
dle ode Bl ibe Wot MMU 使 用 此 表 执 行 这 种 转换 。 

图 3. 13 演示 了 一 种 情况 ， 在 MMU 的 帮助 下， 分散 的 内 存 块 组 成 了 在 进程 看 来 似乎 是 连续 的 分 段 
(分 页 大 小 实际 上 是 一 个 分 割 单位 。 换 名 话说， 比分 页 大 的 内 存 碎 片 都 被 使 用 了 ) 。 





ET 一 — 
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假设 一 个 进程 需要 访问 它 ;所 认为 的 地址 “a HIN + 123” r 如 图 3. 13 所 示 ， 该 地 址 被 解释 为 
属于 编号 为 6 的 分 页 ， 偏 移 量 为 123。MMU 表 将 分 页 6 映射 到 物理 帧 21 上 。 最 终 ， 该 地 址 被 转换 为 实 
际 的 物理 位 置 “20 x 分 页 大 小 e193". 

提供 连续 的 内 存 是 一 个 相当 简单 的 功能 。 分 页 最 巧妙 的 功能 是 它 可 以 支持 内 存 中 的 帧 数 比 所 有 活 
动 进程 使 用 的 总 分 页 数 少 的 情况 。 那 样 ， 即 使 单个 进程 的 逻辑 地 址 空间 也 可 能 比 整 个 物理 内 存 大 。 为 
了 实现 这 一 点 ， 操 作 系 统 将 进程 内 存 映 射 到 存储 设备 (通常 为 磁盘 )。 如 图 3. 14 所 示 ， 一 些 分 页 (PR 
为 驻 留 分 页 ) 保存 在 物理 内 存 中 ， 而 其 他 分 页 则 存储 在 磁盘 上 。 当 与 非 驻 留 分 页 对 应 的 逻辑 地 址 被 进 
程 引 用 时 ， 必 须 将 它 写 入 物理 内 存 。 

当然 ， 当 内 存 中 所 有 的 帧 都 被 占用 时 ， 它 就 变 成 了 一 个 零 和 游戏 如 果 一 个 分 页 被 带 信 内存， 其 
他 一 些 分 页 必 将 先 被 驱逐 出 去 。 通 过 由 操作 系统 使 用 的 分 页 蔡 换 算法 选取 需要 逐 出 的 分 页 。 这 种 选择 
对 于 性 能 至 关 重 要 ， 因 此 在 过 去 的 几 十 年 中 人 们 对 这 一 问题 进行 了 大 量 的 研究 。 如 今 ， 其 结果 可 在 任 
何 操 作 系 统 的 说 明 性 文件 中 找到 。 

顺便 说 一 句 ， 实 际 的 内 存 / 存 储 设备 并 不 存在 什么 熟 优 熟 劣 ， 也 就 是 说 ， 人 快速 但 相对 较 小 且 易 失 性 
的 RAM 和 相对 较 慢 但 体积 较 大 且 持 和 久 的 磁盘 存储 设备 ， 都 有 自己 的 适用 场景 。 在 第 6 章 中 ， 将 介绍 并 
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讨论 不 同类 型 的 存储 方案 ， 这 些 方案 一 起 填补 了 两 种 极端 之 间 的 空白 领域 ， 并 建立 起 了 存储 器 的 层次 
结构 。 





图 3.15 描述 的 分 页 表 提供 了 对 转换 实现 的 一 些 提 示 。 虚 拟 地 址 最 左边 的 比特 位 提供 了 逻辑 分 页 
号 ， 其 余 的 是 偏 移 量 ， 它 保持 不 变 。 如 果 分 页 是 驻 留 的 ， 由 表 中 相应 的 标志 指示 ， 则 该 转换 就 是 直接 
完成 的 (并 且 相当 快 ) 。 如 果 是 非 驻 留 的 ，MMU 就 会 生成 异常 ， 即 分 页 错误 。 






要 处 理 分 页 错误 ， 操 作 系统 需要 找到 要 逐 出 的 分 页 (分 页 蔡 换 算法 使 用 分 页 表 中 存储 的 其 他 的 标 
志 )。 然 后 ， 要 驱逐 的 分 页 可 能 会 被 写 人 人 磁盘。 最后， 等 待 被 引用 的 分 页 将 会 从 它 在 磁盘 中 的 位 置 读 入 
到 内 存 帧 中 。 这 一 过 程 需 要 完成 很 多 的 工作 ， 但 是 借助 于 分 页 的 特点 ， 它 可 以 相当 高 效 地 完成 。 虽 然 
虚拟 内 存 比 真实 内 存 慢 得 多 ， 但 复杂 的 基于 局 发 式 的 算法 使 其 不 会 慢 得 太 多 。 同 时 ， 值 得 注意 的 是 ， 
进程 分 页 表 可 以 增 大 ， 远 大 于 MMU 可 以 填充 的 程度 ， 从 而 在 这 种 类 型 的 转换 中 引入 额外 的 机 制 。 

此 外 ， 与 分 段 表 一 样 ， 分 页 表 也 采用 了 内 存 保 护 ， 即 一 个 分 页 可 能 只 是 可 执行 的 、 只 读 的 ， 或 它 
们 的 任意 组 合 。 而 且 ， 与 分 段 表 的 情况 一 样 ， 能 够 被 调用 更 改 分 页 表 的 指令 都 是 具有 特权 的 。 

在 本 节 中 ， 最 后 需要 注意 的 是 : 分 段 可 以 与 分 页 相 结 合 。 例 如 ， 每 个 分 段 都 可 以 有 自己 的 分 页 表 。 


3.2.7 ”特权 指令 的 处 理 选项 和 CPU 循环 的 最 终 近似 xr | 
一 个 重要 的 问题 是 ，CPU 在 用 户 模式 下 遇 到 特权 指令 会 做 什么 (特权 指令 如 何 出 现在 用 户 程 序 ? 
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当然 ， 合 法 的 编译 器 不 会 产生 这 样 的 程序 ， 但 是 出 现 这 样 的 情况 ， 有 可 能 是 汇编 程序 人 员 的 失误 或 出 
于 恶意 的 企图 。 此 外 ,在 完全 虚拟 化 中 ， 也 有 可 能 出 现 这 样 的 情 ; 这 一 问题 将 在 3.3 节 中 讨 
论 ) o 

所 有 现 有 的 CPU 在 处 理 这 种 情况 时 ， 都 会 采用 以 下 两 种 方法 之 一 。 当 CPU 在 用 户 模式 下 遇 到 特权 
指令 时 ， 它 要 么 生成 异常 ， 要么 完全 忽略 这 条 指令 ( 即 跳 过 它 ， 不 执行 任何 操作 ， 只 是 浪费 了 一 个 周 
期 )。 

无 论 哪 种 方法 ， 它 都 确保 了 用 户 程 序 不 会 通过 执行 特权 指令 造成 任何 破坏 。 但 是 ， 第 二 种 情况 会 
导致 虚拟 化 方面 的 问题 。 稍 后 在 研究 虚拟 机 管理 程序 时 ， 再 讨论 这 个 问题 。 

通过 设计 ， 我 们 开发 的 小 CPU- 在 用 户 模式 下 遇 到 特权 指令 时 会 生成 一 个 异常 。 通 过 这 种 方式 ， 
CPU 提供 了 一 个 明确 的 机 制 ， 指 示 问 题 的 发 生 。 它 还 可 以 帮助 改善 安全 性 ， 就 安全 考虑 而 言 ， 检 测 对 
系统 控制 权 的 获取 企图 ， 对 防止 其 他 来 自 同一 来 源 可 能 更 为 复杂 的 尝试 是 至 关 重 要 的 。 忽 略 “ 育 怪 - 
的 指令 对 安全 防护 没有 帮助 。 将 控制 权 从 包含 这 类 指令 的 程序 中 移 除 。 

因此 ， 我 们 得 到 了 第 三 个 ， 也 是 最 后 最 近似 于 现代 的 CPU 循环 ， 如 图 3. 16 所 示 。 与 早期 版 本 相 
比 ， 第 一 个 主要 的 变化 是 ， 每 个 指令 都 是 在 一 开始 就 进行 检查 的 。 如 果 不 能 识别 ， 或 者 具有 错误 的 参 
数 ， 或 者 不 适用 于 当前 的 模式 〈 即 如 果 它 是 特权 指令 ， 而 CPU 正在 用 户 模式 下 运行 )， 那 么 就 会 出 现 
异常 。 另 一 个 变化 是 ， 当 CPU 开始 处 理 中 断 或 异常 时 ， 它 会 切换 到 系统 模式 ， 并 切换 到 系统 堆栈 (至 
于 时 序 方面 ，STATUS 寄存 器 当然 是 在 CPU 模式 切换 之 前 被 保存 的 ， 所 以 CPU 可 以 返回 到 中 断 时 的 模 
式 ) 。 同 样 ， 寄 存 器 被 保存 在 系统 堆栈 ， 而 不 是 用 户 堆栈 ， 这 是 另 一 种 安全 措施 。 通 过 民 好 的 设计 ,用 
户 代码 既 不 能 接触 ， 甚 至 也 无 法 看 到 这 些 系统 数据 结构 。 


While TRUE 





通过 PC 取得 指令 指针 : 
If 指令 有 效 AND 指令 适用 于 当前 模式 AND 参数 对 操作 有 效 
{ 
推进 PC 指向 下 一 条 指令 ; 
执行 指令 ; 


} 


else 
HE Ne EA 5 
If (异常 #X 已 经 出 现 ) OR (中断 #x 已 经 出 现 ) AND 中 断 激活 


{ 
将 STATUS 寄存 器 和 PC 保存 在 系统 堆栈 (@SP ); 


切换 到 系统 模式 ; 
PC = 中 断 向 量 [x] ; 





3.2.8 EsHArRanEKer d 


到 目前 为 止 ， 所 创建 的 CPU 可 以 文 持 虚拟 化 ， 因 为 其 上 运行 的 进程 可 以 “认为 ” 目 己 拥有 整个 
CPU (即使 是 较 慢 的 CPU) 、 所 有 的 WO 设备 ， 以 及 无 限 的 统一 寻 址 空间 。 物 理 机 耸 由 操作 系统 软件 控 
制 ， 该 软件 创建 并 维护 用 户 进 程 。 操 作 系统 提供 的 服务 是 操作 系统 的 特点 。 

我 们 已 经 解决 了 CPU 访问 和 内 存 管理 等 服务 问题 。 其 中 ， 后 者 延伸 到 了 长 期 存储 融 一 一 人 磁盘 文件 
系统 的 建立 与 维护 。 磁 盘 只 是 由 操作 系统 管理 的 IO 设备 之 一 。 显 示 器 、 键 盘 和 打印 机 是 其 他 设备 的 
例子 。 另 一 个 例子 是 网 络 驱 动 硕 。 进 程 只 能 通过 操作 系统 访问 设备 。 


O ”这样 的 设计 决定 是 在 开发 M68000 系列 处 理 器 时 做 出 的 '” ， 事 实 上 ,我们 的 示例 CPU 体现 出 了 该 机 器 的 几 个 功能 。 
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虽然 进程 似乎 拥有 CPU、 内 存 和 设备 ,但 它 还 需要 知道 其 他 进程 的 存在 。 为 此 ， 所 有 现代 操作 系 
统 都 为 进程 间 的 通信 提供 了 一 种 机 制 ， 它 可 以 让 进程 交换 信息 。 结 侣 数据 通信 ， 该 功能 可 以 实现 在 不 
同 机 如 上 运行 的 进程 之 间 进 行 通信 ， 从 而 为 分 布 式 计算 奠定 了 基础 。 

这 些 服务 是 以 层 为 单位 构建 的 ， 每 层 服 务 于 其 上 方 的 层 。 如 果 在 数据 网 络 服 务 之 上 实现 文件 系统 
服务 ， 则 可 以 将 进程 的 文件 系统 映射 到 与 其 连接 的 不 同 计算 机 的 磁盘 上 ， 进 程 无 须知 道 设备 的 实际 位 
置 和 具体 文件 记录 的 位 置 。 

进程 通过 系统 调用 请 求 操作 系统 服务 。 对 程序 员 来 说 ， 这 种 调用 只 是 一 个 过 程 调 用 。 不 可 避免 地 ， 
相应 的 过 程 可 能 会 包含 陷阱 指令 ， 导 致 进程 执行 中 断 。 图 3. 17a 所 示 包 含 了 一 个 示例 Service_A 例 程 的 
伪 代 码 。 它 所 做 的 就 是 在 用 户 堆 栈 上 推送 Service_A 助 记 符 ， 并 通过 TRAP 1 将 控制 权 传 给 系统 。 


| Service_A (参数 列表 ) #DISI | | Service A System() 
#SAVEREGS { 





# STORE*Service_A’@SP #ENI 从 用 户 堆栈 复制 参数 ; 
#ADD SP,-4 调用 用 户 堆栈 上 与 服务 执行 服务 ; 

#TRAPI 名 对 应 的 例 程 

#ADD SP+4 
#RTP 





#RESTREGS 


% i À 
i SIHR 
3 REN Spe E i f t 
> oasis g 3 i ‘ 
baie D j Ri : 


a) 用 户 部 分 的 Service_A 例 程 b)TRAP1 服 务 例 程 c) 系 统 部 分 的 Service_A 例 程 
”图 3. 17 系统 调用 处 理 

如 图 3. 17b 所 示 ， 当 TRAP 1 异常 被 处 理 时 ， 该 进程 将 恢复 。 处 理 程序 读 取 进 程 堆栈 的 项 部 以 确定 
服务 A 已 被 请 求 ， 然 后 调用 Service_A_System 例 程 。 如 图 3. 17c 所 示 ， 后 者 以 系统 模式 运行 ， 可 能 会 调 
用 其 他 的 系统 过 程 。 运 行 完成 后 ， 返 回 到 图 3. 17b 所 示 的 异常 处 理 程序 ， 该 处 理 程序 在 最 后 通过 RTI 指 
令 将 控制 权 返 回 给 用 户 程 序 代码 。 读 者 可 能 还 记得 STATUS 寄存 器 〈( 带 有 指示 用 户 模式 的 模式 标志 ) 
的 值 在 中 断 时 被 保存 。 而 这 种 向 用 户 模式 的 切换 只 能 通过 恢复 该 值 来 实现 。 

重要 的 是 要 了 解 ， 用 户 进程 会 经 历 一 连 串 的 在 用 户 程 序 代码 与 系统 代码 之 间 交 蔡 的 指令 。 然 而 ， 
用 户 程 序 不 知道 ， 也 不 能 控制 系统 数据 结构 或 其 他 进程 的 数据 ( 当然 ， 除 非 其 他 进程 有 意 共 享 此 类 数 
据 )。 

”需要 简单 指出 的 是 ， 当 服务 例 程 启动 IO 操作 时 ， 通常 不 会 等 待 这 项 操作 完成 。 相 反 ， 它 会 把 进 
程 停放 在 该 设备 特定 事件 的 队列 ， 并 将 控制 权 传 递 给 调度 程序 ， 以 便 其 他 进程 能 够 运行 。 为 此 ， 如 来 
操作 系统 确定 该 进程 的 量子 或 时 间 片 已 经 耗 尽 ， 那么 它 将 发 起 一 个 时 间 片 中 断 ， 该 中 断 可 能 会 产生 完 
全 相同 的 中 断 进程 处 理 过 程 。 通 过 这 种 方式 ， 操 作 系 统 可 以 确保 CPU 能 够 被 公平 地 分 配给 所 有 的 进程 。 

在 这 一 点 上 ， 可 以 适当 地 解释 术语 “进程 ”和 “线程 ”之 间 的 区 别 。 进 程 会 被 分 配 资源 : 它 的 内 
存 空间 、 设 备 等 。 最 初 ， 这 些 资源 只 与 单个 控制 线程 相关 联 。 后 来 ， 进 程 这 个 词 变 得 只 和 地 址 空间 相 
关 ， 而 不 是 执行 的 线程 。 因 此 ， 多 个 任务 (线程) 可 以 在 进程 中 执行 ， 共 享 相同 的 资源 。 有 了 时， 线程 
也 称 为 轻 量 级 进程 ， 因 为 线程 的 上 下 文 切 换 (不 需要 重新 加 载 分 页 表 等 ) 与 进程 相 比 需要 调用 的 过 程 
要 少 得 多 。 不 入 的 是 ， 这 个 术语 没有 被 一 贯 使 用 。 

操作 系统 的 演变 受到 两 个 因素 的 影响 : 应 用 需求 和 硬件 功能 (因此 也 是 硬件 价格 ) 。 当 需要 考虑 实 
现 细 节 时 ， 仍 然 存 在 一 个 灰色 区 域 ， 使 人 们 无 法 假定 给 定 的 功能 是 放 在 硬件 上 实现 还 是 放 在 操作 系统 
中 实现 。 

数据 网 络 的 发 展 使 操作 系统 的 功能 可 以 分 布 在 网 络 中 的 不 同 节 点 上 。 这 实际 上 是 20 世纪 90 年 代 到 
21 世纪 初 的 一 个 发 展 趋势 ， 直 到 后 来 云 计 算 的 出 现 ， 延 续 了 这 一 趋势 。 与 此 同时 ， 这 种 趋势 似乎 已 被 
扭转 [工作 集中 在 一 台 (虚拟 的 ) 机 器 上 ]j] ， 而 在 理念 上 仍 在 前 进 (虚拟 机 可 以 轻松 地 通过 网 络 从 一 
台 机 器 迁移 到 男 一 台 机 右上 )。 

在 整个 操作 系统 的 发 展 中 上， 一般 的 安全 性 问题 (以 及 较 小 的 隐私 问题 ) 已 经 得 到 不 断 的 解决 。 
有 意思 的 是 ， 即 使 在 它 根本 不 是 个 问题 的 时 候 ; 也 就 是 在 没有 网 络 的 情况 下 ， 甚 至 在 很 少 人 才能 接触 
到 计算 机 的 时 候 也 是 如 此 。 操 作 系 统 的 历史 通过 人 类 整体 历史 的 发 展 表 现 已 经 证 明了 : 即使 有 最 好 的 
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想法 和 最 好 的 设计 ， 也 不 一 定 会 成 功 。 为 此 ， 麻 省 理工 学 院 的 多 路 信息 与 计算 服务 (Multiplexed Infor- 
mation and Computing Service, Multics) "操作 系统 的 功能 集 从 未 完全 出 现在 无 处 不 在 的 商业 产品 中 ， 尽 
管 Multics 已 经 影响 了 几 个 操作 系统 的 设计 ， 尤 其 是 UNIX 操作 系统 。 

Multics 十 分 看 重 安全 方面 ， 对 待 安全 问题 非常 认真 。 罗 伯 特 ' 格雷 厄 姆 ( Robert Graham), Multics 
的 贡献 者 ， AR RA. 曾 在 他 1968 年 的 开创 性 的 论文 〈 其 中 非常 准确 地 预测 了 几乎 半 
个 世纪 之 后 计算 机 信息 领域 的 发 展 ) 中 写 道 :“ 用 户 社区 必定 会 有 不 同 的 兴趣 。 事 实 上 ， 这 些 用 户 社区 
中 可 能 会 包含 具有 商业 竞争 力 的 用 户 。 这 套 系统 将 可 以 用 在 很 多 的 应 用 方面 ， 其 中 敏感 数据 ( 如 公司 
工资 单 记录 ) 将 需要 存储 在 系统 中 。 男 外 ， 社 区 用 户 希 望 彼 此 分 享 数 据 和 程序 。 其 至 一 组 用 户 将 在 同 
一 个 项 目 上 协同 工作 …… 最 后 ， 会 有 信息 处 理 实用 程序 管理 提供 的 公共 程序 库 。 事 实 上， 这 样 一 个 系 
统 的 主要 目标 是 为 许多 不 同 的 用 户 提 供 灵 活 但 可 控 的 共享 数据 和 程序 的 访问 ”。 

格雷 厄 姆 的 设计 ， 已 经 在 Multics 中 得 到 了 实现 ， 他 在 这 一 设计 中 设计 了 保护 环 。 我 们 从 一 个 简单 
的 方案 开始 ， 如 图 3. 18 所 示 。 回 顾 一 下 3.2.6 节 中 讨论 的 分 段 表 ， 可 以 进一步 细 化 分 段 的 访问 权限 。 


分 段 表 程序 计数 器 


ES TEARRE 
JAE | 大 小 | fh | 访问 指示 器 
Pee) Ss oes a 


PLFA RRS 
可 以 访问 环 j, 当 且 
仅 当 ;<7 





专注 于 每 个 分 段 而 不 是 每 个 分 页 的 保护 方案 的 确定 是 经 过 深思 部 虑 的 。 ERE EMRE SCR RO 
写 道 :“ 分 段 是 用 户 识 别 信息 的 逻辑 单元 ”， 而 “分 页 是 对 系统 存储 管理 有 用 的 信息 单元 ， 因 此 对 用 户 
是 不 可 见 的 ”。 这 种 保护 方案 的 思想 是 根据 军事 原则 ‘根据 许可 级 别 确定 知 密 范围 ”而 产生 的 。 拥 有 给 
定 许可 级 别 的 人 可 以 访问 低 于 该 许可 级 别 的 信息 ， 相 反 这 不 行 。 因 此 ， 将 权限 级 别 表示 为 一 组 同心 环 。 
最 小 的 环 ( 环 0) 具有 最 高 的 权限 级 别 (这 一 点 的 图 形 意义 在 于 ， 权 限 级 别 越 高 ， 被 授予 访问 这 一 级 
别 的 权限 的 组 越 小 ， 所 以 用 较 小 的 圈子 表示 具有 较 高 权限 级 别 的 环 ) 。 

格雷 厄 姆 在 本 章 参 考 文 献 [11] 中 提出 了 两 个 模型 。 第 一 个 比较 简单 直接 ; 第 二 个 更 为 复杂 ， 因 
为 它 提 供 了 优化 。 

两 个 模型 都 需要 更 改 分 段 表 。 两 个 模型 的 访问 指示 字段 包含 了 4 个 独立 的 标志 位 : 

1) 用 户 / 系 统 标志 指示 分 段 是 否 可 以 在 用 户 模 式 下 访问 。 

2) 读 / 写 标志 一 一 指示 分 段 是 否 可 以 写 信 。 

3) 执行 标志 一 一 指示 分 段 是 否 可 以 执行 。 

4) 故障 /无 故障 标志 一 一 指示 访问 分 段 是 否 会 导致 异常 ， 无 论 在 何 种 情况 (额外 的 保护 级 别 ， 覆 
盖 所 有 其 他 的 标志 )。 

PC 寄存 器 增加 了 指示 代码 权限 级 别 的 环 号 。 另 外 ， 每 个 分 段 表 条 目 都 增加 了 一 个 对 环 结 构 的 引 
用 ， 但 是 这 里 的 模型 不 同 。 

在 第 一 个 模型 中 ， 每 个 分 段 现 在 都 被 分 配 了 环 号 ， 指 示 它 的 权限 ， 如 分 段 表 条 目 所 示 。 需 要 注意 


O 在 本 章 参 考 文献 [11] 中 有 一 些 细节 反映 了 这 些 标志 值 具 体 组 合 的 含义 。 例 如 ， 相 应 的 标志 值 为 “ 读 取 和 执行 ” 则 用 
来 表示 代码 不 能 自行 修改 。 
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的 是 ， 此 方案 会 导致 不 相交 的 分 段 集 被 分 配 不 同 的 权限 。 

这 里 考虑 一 个 代码 分 段 。 如 果 该 分 段 访 问 环 值 是 i,， 分 段 内 的 代码 只 能 访问 分 段 环 值 为 />i 的 分 段 
( 当然 ， 这 只 是 第 一 道 防线 。 通 过 访问 指示 标志 的 值 可 以 对 访问 做 进一步 的 限制 )。 跳 出 分 段 需 要 系统 
的 特殊 干预 ， 因 此 它们 都 会 引起 异常 。 

虽然 这 个 模型 是 有 效 的， 但 格雷 尼 姆 表示 ， 如 果 放 松 环 不 相交 的 要 求 ， 允 许 以 调用 者 的 权限 级 别 
(但 不 能 更 高 ) 执行 共享 例 程 ， 则 可 以 使 它 更 有 效 。 通 过 这 个 结果 可 以 得 到 第 二 个 模型 ， 如 图 3. 19 
所 示 。 

分 段 表 访问 后 程序 计数 器 


环 括号 = (kl) 





成 为 函数 库 的 所 有 代码 被 分 配 到 括号 中 的 连续 分 段 上 。 因 此 ， 当 以 权限 级 别 i 执行 的 过 程 调 用 一 个 访 
间 括 号 是 (k, 1) 的 过 程 ， 只 要 大 <zi< 71， 就 不 会 发 生 异 常 。 超 出 括号 限制 的 调用 会 导致 异常 。 

到 目前 为 止 ， 只 考虑 代码 分 段 之 间 的 控制 转移 ， 但 是 环 括号 的 使 用 可 以 进一步 延伸 到 以 下 的 数据 
分 段 。 如 果 一 个 数据 分 段 的 环 插 号 为 (k,，1) ， 那么 以 权限 级 别 i 执 行 的 指令 可 以 : 

1) 写 人 该 分 段 ， 只 要 它 是 可 写 人 的 并 且 i<k( 即 指令 的 权限 级 别 比 该 分 段 高 ) 。 

2) 读 取 该 分 段 ， 前 提 是 <i<i。 

如 果 i>1， 那 么 指令 完全 不 能 访问 该 分 段 。 

Multics 设计 了 8 种 保护 环 ， 环 的 数目 受到 硬件 的 限制 。 早 在 20 世纪 80 年 代 ， 通用 数码 公司 (Data 
General) 的 Eclipse MV/8000 CPU 已 经 在 PC 内 设计 了 一 个 三 位 的 环 指 示 表 (相关 内 容 请 参见 本 章 参 考 
文献 [12|])。 

这 些 发 展 都 预见 到 了 将 来 ， 曾 经 的 这 些 发 展 正 是 今天 正在 发 生 的 。 从 虚拟 化 的 角度 来 看 ， 对 安全 
保护 的 重 燃 兴趣 使 得 许多 计算 机 科学 家 开始 怀念 起 了 20 世纪 70 和 80 年 代 。 

在 这 一 点 上 ， 总 结 前 面 的 内 容 ， 可 以 归纳 如 下 : 

1) 进程 作为 一 个 单元 ， 有 自己 的 虚拟 资源 世界 : CPU、“ 无 限 ” 的 内 存 和 所 有 的 1/0 设备 。 

2) 进程 依赖 于 操作 系统 一 一 操作 系统 对 物理 机 器 进行 管理 ， 确 保 所 有 进程 得 到 公平 的 对 待 。 

3) 操作 系统 内 核 是 唯一 可 以 执行 特权 指令 的 实体 。 内 核 作 为 处 理 中 断 或 异常 〈 包 括 陷阱 ) 的 结果 
加 入 。 

4) 物理 机 器 可 以 执行 多 个 进程 。 

5) 进程 可 以 感知 到 其 他 进程 ， 并 且 可 以 与 它们 进行 通信 。 

下 一 节 将 介绍 如 何 将 其 引入 下 一 级 抽象 ， 以 便 开 发 图 3. 1 所 示 类 型 的 虚拟 机 。 
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先 来 回顾 一 下 我 们 的 目标 。 

通过 引入 虚拟 化 ， 盲 先是 为 了 节省 成 本 ， 主 要 是 在 空间 、 能 源 和 人 员 方 面 的 成 本 ， 我 们 可 以 在 一 
台 机 需 上 运行 多 台 机 融 。 其 中 ， 一 个 越 来 越 重 要 的 方面 是 环保 问题 : 一 台 机 器 通常 要 比 多 台 机 器 使 用 
的 电量 更 少 。 

虚拟 化 的 为 一 个 目标 是 提高 CPU 的 利用 率 。 即 使 使 用 多 重 处 理 ，CPU 几乎 也 从 未 被 充分 利用 。 在 
“ 云 计算 ”这 个 词 出 现 之 前 ,我 们 可 以 看 到 ， 运 行 Web 服务 器 的 机 器 CPU 的 利用 率 比 较 低 。 现 在 ， 服 
务 丹 可 以 被 组 合 放 到 曾经 只 能 运行 单个 服务 器 的 一 人 台 物 理 机 器 上 ， 多 个 服务 器 在 其 各 自 的 虚拟 机 上 运 
行 ， 可 以 使 它们 在 节省 能 源 和 硬件 开 文 的 同时 ， 更 好 地 利用 这 人 台 机 器 。 

其 他 目标 包括 低 成 本 地 克隆 计算 环境 〈 如 服务 器 ) 进行 调试 。 例 如 ， 为 了 应 对 增加 的 负载 ， 迁 移 
Dlars 为 了 特定 的 目的 隔离 设备 〈 如 服务 需 ) ， 而 无 须 投 入 新 的 硬件 。 

束 安 全 性 而 言 ， 隔 离 是 分 析 未 知 应 用 程序 的 有 效 手 段 。 在 虚拟 机 上 测试 程序 ， 可 以 将 其 造成 的 安 
全 风险 隔离 到 这 人 台 虚 拟 机 上 。 这 个 绝妙 的 功能 取决 于 虚拟 机 管理 程序 本 身 ， 这 将 在 本 章 最 后 一 PITA 

在 我 们 看 来 ， 云 计算 作为 提供 计算 服务 实用 程序 业务 的 出 现 也 是 虚拟 化 的 结果 (而 不 是 目标 ) 。 当 
然 ， 它 并 不 是 由 虚拟 化 技术 单独 提供 的 ， 而 是 由 虚拟 化 和 快速 网 络 技术 共同 提供 实现 的 ， 但 是 我 们 认 
为 虚拟 化 技术 在 这 里 发 挥 了 重要 作用 。 

先 从 一 个 一 般 的 、 ET AS CPU 4 FR FA ABA FP R, BURR TE R CAN KAS Et AS EB) EA AY) HE IL 
随 看 最 近 CPU 虚拟 化 的 发 展 ， 这 一 假设 不 再 成 立 。 并 且 ， 将 回顾 基于 内 核 的 虚拟 机 (Kernel - based 
Virtual Machine，KVM) 管理 程序 ， 其 中 正如 其 名 ， 它 确实 是 基于 内 核 的 一 个 特例 。 

从 虚拟 化 开始 ， 负 责 创建 和 维护 虚拟 机 的 软件 被 称 为 虚拟 机 监控 器 ( Virtual Machine Monitor, 
VMM) 或 虚拟 机 管理 程序 。 这 两 个 词 在 文献 中 可 以 互 换 使 用 。 在 本 书 的 其 余部 分 ， 将 仅 使 用 后 一 个 词 ， 
PP BE VBL E EER o 虚拟 机 环境 由 虚拟 机 管理 程序 创建 。 


3. 3. 1 模型 、 需求 和 问题 * * a i 

如 本 章 参考 文献 [13] 所 述 ， 用 于 解决 在 虚拟 机 上 进程 执行 所 需 资 源 的 笃 典 抽象 模型 ， 已 经 出 现 
了 40 多 年 。 在 这 个 模型 中 ,采用 了 两 个 功能 ， 一 个 对 于 操作 系统 是 可 见 的 ， 而 男 一 个 功能 仅 对 虚拟 机 
管理 程序 可 见 。 前 一 个 功能 将 进程 ID 映射 成 (虚拟 ) 资源 名 称 ; 后 一 个 功能 则 将 虚拟 资源 名 称 映射 为 
物理 资源 模型 。 这 种 映射 是 递归 的 ， 人 允许 在 物理 硬件 之 上 的 多 个 虚拟 机 层 上 进行 。 每 当 发 生 故 障 ( 即 
引用 了 未 映射 的 资源 )， 异 常会 导致 将 控制 传递 给 下 一 层 的 虚拟 机 管理 程序 。 该 模型 为 已 经 为 虚拟 化 的 
系统 研究 和 实现 奠定 了 基础 。 

一 项 重大 的 后 续 人 研究 工作 “使 其 作者 的 名 字 “ 杰 拉 尔 德 ， 波 佩 克 (Gerald Popek) 博士 和 罗伯特 
戈 德 堡 (Robert Goldberg) 博士 ”永远 同 虚 拟 化 相关 联 ， 即 “ 波 佩 克 与 戈 德 堡 虚拟 化 需求 ” ， 并 且 这 份 
需求 已 经 成 为 了 经 典 ， 值 得 人 们 深入 人 研究 。 

首先 ， 这 篇 论文 的 主要 任务 是 陈述 和 演示 “计算 机 托管 虚拟 机 管理 程序 必须 满足 的 条 件 ”。 为 此 ， 
作者 设计 了 一 种 公式 化 的 机 器 模型 ， 并 在 数学 上 证 明了 他 们 的 结论 。 该 模型 是 第 三 代 CPU 架构 的 抽象 ， 
IBM 360 Honeywell 6000 和 DEC PDP - 10 都 是 这 一 代 CPU 的 具体 实例 ， 在 本 章 前 面 已 经 设计 的 CPU 也 
是 这 样 的 。 该 模型 不 考虑 中 断 ， 因 为 这 些 对 于 其 论述 的 主题 不 是 必需 的 ， 但 是 对 陷阱 进行 了 完全 的 
建 模 。 





这 篇 论文 概述 了 虚拟 机 管理 程序 (作者 使 用 VMM 一 词 ) 的 3 个 基本 特征 :“ 首 先 ，VMM 为 与 原始 

机 徊 相同 的 程序 提供 了 一 个 环境 其次， 在 这 种 环境 下 运行 的 程序 在 最 坏 的 情况 下 只 显示 出 微小 的 速 
度 下 降 ; 再 次 ，VMM 完全 控制 系统 资源 ”。 

第 一 个 特征 ， 通 第 被 称 为 等 价 需 求 ， 即 虚拟 机 上 运行 的 程序 必须 产生 与 它 在 真实 机 器 上 运行 相同 
的 结 采 。 

第 二 个 特征 是 效率 需求 : 将 “ 硬 ”CPU 能 够 直接 执行 的 指令 从 软件 模拟 的 CPU 指令 范围 中 排除 。 
作者 认为 与 软件 模拟 相 比 在 真实 CPU 上 运行 其 性 能 具有 “统计 优势 ”的 这 部 分 指令 ， 必 须 由 真实 的 处 
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理 顺 直接 执行 。 

第 三 个 特征 被 转化 为 以 下 的 资源 控制 需求 : 

1) 虚拟 机 上 运行 的 程序 不 能 访问 虚拟 机 管理 程序 未 明确 分 配给 它 的 资源 。 

2) 虚拟 机 管理 程序 可 以 从 虚拟 机 中 取 走 以 前 分 配给 它 的 任何 资源 。 

现在 ， 可 以 介绍 本 章 参 考 文献 [14」 中 所 述 的 正式 模型 了 (这 部 分 内 容 可 以 跳 过 ， 不 会 影响 对 其 
研究 结果 和 原理 的 理解 )。 该 模型 基于 对 一 个 四 元 组 $= <E,M,P,R> 机 器 状态 的 定义 ， 其 中 为 内 存 
RES, M 为 CPU 模式 〈 即 用 户 模式 或 系统 模式 ) ， 已 是 PC 寄存 器 的 值 ，R 是 “ 重 定位 寄存 器 ” (在 
CPU 的 情况 下 ， 这 实际 上 是 整个 MMU, 但 是 早期 的 第 三 代 CPU 实际 上 只 有 一 个 分 段 ， 因 此 只 有 一 个 重 
定位 寄存 器 ) 。 该 模型 使 内 存 位置 EL0] MEL] 称 为 保存 <M，P，R > 三 元 组 的 有 效 堆 栈 。 指 令 i 可 以 
被 看 作 状 态 空间 到 目 身 的 映射 ， 因 此 可 以 写成 

iE, M FR) = (EM Pt) 
如 果 存 储 保持 不 变 ， 则 该 指令 被 称 为 陷阱 ， 除 了 堆栈 的 项 部: 
E,[0] = (E, Fi Min ) ;( 保存 的 状态 ) 
(RPR ET 
如 果 内 存 访问 越界 时 陷入 陷阱 ， 则 该 指令 被 称 为 内 存 陶 阱 。 

因此 ， 可 将 指令 进行 如 下 分 类 : 

1) 如 果 指 令 没 有 内 存 陷阱 ， 则 将 其 称 为 特权 指令 ,但 只 有 在 用 户 模 式 下 执行 时 ， 才 会 陷入 陷阱 。 

2) 如 果 指 令 尝 试 更 改 可 用 内 存量 或 影响 CPU 模式 ， 则 将 其 称 为 控制 敏感 指令 。 

3) 如 果 指 令 的 执行 取决 于 控制 敏感 指令 设置 的 控制 值 ， 则 将 其 称 为 行为 敏感 指令 。 作 者 提供 的 例 
子 是 IJBM 360 加 载 真 实地 址 (Load Real Address, LRA) 指令 ， 它 是 位 置 敏感 的 ;) 以 及 PDP -11745 从 
前 指令 空间 移动 (Move From Previous Instruction Space, MFPI) 指令 ， 它 是 模式 敏感 的 (后 一 条 指令 是 
该 机 器 的 四 条 指令 之 一 ,在 当前 堆栈 上 复制 前 一 地 址 空间 中 操作 数 地 址 上 的 数据 ， 如 CPU 模式 所 示 。 
我 们 定义 的 CPU 没有 这 样 的 功能 ) 。 

4) 如 果 指 令 是 行为 敏感 或 控制 敏感 的 ， 则 将 其 称 为 敏感 指令 。 和 否则 ， 将 其 称 为 无 害 指 令 。 

果然 ， 敏 感 指令 定义 的 规范 化 涉及 相当 多 的 符号 复杂 性 ， 作 者 称 之 为 “不 华 的 符号 表达 式 的 切 
线 "。 基 于 这 种 符号 表示 开发 的 理论 使 我 们 能 够 正式 证 明 这 一 结论 ， 即 如 果 所 有 敏感 指令 都 是 特权 指 
S, 那么 就 可 以 构建 一 个 虚拟 机 管理 程序 ， 这 是 这 篇 论文 的 主要 结论 。 

为 此 ， 该 虚拟 机 管理 程序 的 构建 如 图 3. 20 所 示 。 
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虚拟 机 执行 的 代码 中 的 所 有 无 害 指令 都 由 物 执行 。 尝 试 执行 特权 指令 
(定义 好 的 ) 一 个 陷阱 ， 调 度 程序 是 它 的 服务 例 程 。 如 采 一 个 指令 需要 资源 分 配 ， 调 度 程 序 将 调用 分 配 
程序 。 最 终 ， 被 陷 指令 由 解释 程序 模拟 ， 解 释 程序 只 是 一 个 模拟 例 程 库 ， 每 条 指令 一 个 。 
本 草 参 考 文献 [14] 中 的 模型 没有 专门 关注 分 时 间 题 ， 尽 管 作者 指出 ，CPU 本 身 也 是 分 配 程序 所 
考虑 的 可 分 配 资源 。 
的 确 ， 今 天 的 虚拟 机 管理 程序 就 是 在 分 时 环境 下 工作 的 ， 如 图 3. 21 所 示 。 
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资源 。 

每 个 虚拟 机 都 运行 自己 的 操作 系统 〈 称 为 客户 机 操作 系统 ) ， 处 理 用 户 进程 。 虚 拟 机 管理 程序 获取 
所 有 中 断 和 异常 。 在 后 者 中 有 与 系统 调用 相对 应 的 陷阱 。 

一 些 中 断 (如 处 理 多 个 机 器 分 时 的 闹 铃 中 断 ) 是 由 虚拟 机 管理 程序 本 身 处 理 的 ， 其 结果 是 ， 已 经 
超过 其 时 间 量子 的 虚拟 机 会 被 停止 ， 并 将 CPU 分 配给 其 他 的 虚拟 机 。 

专用 于 虚拟 机 的 所 有 中 断 和 异常 (包括 从 本 机 用 户 进程 发 出 的 系统 调用 ) 都 将 传递 给 客户 机 操作 
系统 。 

但 虚拟 机 管理 程序 运行 在 哪里 ?到 目前 为 止 ， 假 设 它 直接 在 物理 机 上 运行 。 这 样 的 虚拟 机 管理 程 
序 称 为 1 型 (或 有 时 称 为 裸 机 ) 管理 程序 。 相 比 之 下 ,在 操作 系统 之 上 运行 的 虚拟 机 管理 程序 称 为 2 
型 管理 程序 。 这 种 分 类 如 图 3. 22 所 示 。 





在 本 章 后 面 的 具体 案例 研究 中 ， 再 来 回顾 这 种 分 类 法 。 

到 目前 为 止 ， 我 们 一 直 专 注 于 CPU 虚拟 化 的 问题 。 不 用 说 ， 其 他 虚拟 化 要 素 〈 例 如 ，LO 设备 访 
问 的 虚拟 化 ) 并 不 是 无 足 轻 重 的 ， 特 别 是 在 实时 操作 时 。 就 内 存 虚拟 化 而 言 ， 尽 管 操作 系统 已 经 在 进 
程 级 别 解决 了 这 一 问题 ， 但 由 于 虚拟 机 管理 程序 需要 维护 其 自己 的 分 页 表 “ 影 子 ” 副 本 ， 所 以 这 仍然 
是 一 个 非常 重要 的 问题 。 

尽管 如 此 ， 最 难 的 问题 是 波 佩 克 与 苞 德 堡 术语 中 所 指 的 不 可 虚拟 化 的 CPU 带 来 的 。 其 中 ,使 用 最 
广泛 的 一 个 就 是 x86 Ab FA o 
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服务 入 和 个 人 计算 机 的 主力 处 理 器 同样 都 起 源 于 原来 的 Intel 8086 CPU, HE 1979 年 的 型 号 (8088) 
由 IBM 个 人 计算 机 率先 出 品 。 当 时 ，8088 突出 重点 的 部 署 策略 〈( 即 聚焦 个 人 计算 ) 可 能 并 没有 关注 虚 
拟 化 (有 什么 可 以 在 为 单个 用 户 设计 的 机 器 上 进行 虚拟 化 的 呢 ?) 。 

相 比 之 下 ， 摩 托 罗拉 M68000 处 理 器 (8088 的 对 手 ， 还 有 苹果 Macintosh, Atari 和 Amiga 计算 机 的 
CPU, VIK AT&T UNIX PC 工作 站 ) 的 架构 适合 于 从 零 开 始 的 虚拟 化 。 为 此 ，M68000 处 理 器 只 有 一 
不 可 虚拟 化 的 指令 。 

该 指令 允许 在 用 户 模式 下 执行 ， 将 STATUS 寄存 器 的 值 传送 到 通用 寄存 器 。 在 本 章 前 面 设计 的 CPU 
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中 ， 其 等 效 于 LOAD R1, STATUS, 该 指令 在 波 佩 克 与 戈 德 堡 分 类 法 中 是 行为 敏感 的 ， 因 为 它 允 许 用 户 
程序 发 现 其 正在 运行 所 在 的 模式 。 这 里 存在 的 风险 如 下 : 假设 虚拟 机 正在 运行 在 安全 性 考虑 方面 精心 
设计 的 操作 系统 。 该 操作 系统 的 一 个 特点 是 ， 一旦 发 现 其 内 核 代 码 在 用 户 模 式 下 运行 ， 就 立即 使 其 停 
止 执行 。 由 于 STATUS 寄存 器 具有 模式 标志 ， 所 以 所 有 实现 此 功能 的 操作 系统 将 停止 。 

为 了 让 M68000 能 够 装配 到 可 以 运行 多 个 操作 系统 的 微型 其 至 小 型 计算 机 的 目标 ， 摩 托 罗 拉 快 速 地 
解决 了 这 个 问题 。1982 年 发 布 的 M68010 处 理 器 ， 使 这 条 指令 当 在 用 户 模式 下 执行 时 会 陷 人 陷阱 ， 就 
像 所 有 其 他 指令 一 样 。 

然而 ， 最 终 接管 计算 领域 的 是 x86 CPU ， 而 不 是 M68010。 但 是 ， 尽 管 x86 CPU 的 指令 集 通过 精心 
的 设计 拥有 了 后 向 兼容 的 思想 ， 但 在 它 的 指令 集中 仍然 包含 不 可 虚拟 化 的 指令 。 例 如 ，32 位 处 理 吉 In- 
tel Pentium CPU 的 指令 集中 ， 有 17 条 指令 被 确定 为 不 可 虚拟 化 的 指令 。 这 些 指令 分 为 3 类 (实际 
上 ， 对 问题 的 理解 至 关 重 要 的 还 是 这 些 划 分 的 类 别 ， 因 为 在 处 理 器 之 间 指 令 不 同 的 时 候 ， 这 些 分 类 却 
是 大 体 不 变 的 ) 。 我 们 来 看 看 Intel Pentium 处 理 器 中 的 指令 类 别 。 

第 一 类 包含 读 取 和 写 人 全 局 和 局 部 分 段 表 寄存 器 以 及 中 断 表 寄 存 器 值 的 指令 ， 其 中 所 有 的 这 三 个 
分 别 指 向 它们 各 自 的 表 。 一 个 主要 的 问题 是 该 处 理 器 只 有 一 个 寄存 器 ， 这 意味 着 需要 为 每 个 虚拟 机 来 
复制 它们 。 因 此 ， 需 要 映射 和 特殊 的 转换 机 制 来 为 其 提供 支持 。 由 于 这 些 机 制 必须 在 每 次 读 写 访问 时 
运行 ， 所 以 对 性 能 的 影响 是 显而易见 的 。 

第 二 类 包含 将 STATUS 寄存 器 的 部 分 值 复制 到 通用 寄存 器 或 内 存 (包括 堆栈 ) 中 的 指令 。 这 里 的 
问题 与 前 面 描述 的 M68000 中 的 情况 一 样 : 虚拟 机 可 以 发 现 其 运行 时 所 处 的 模式 。 

第 三 类 包含 依赖 于 内 存 保护 和 地 址 重 定位 机 制 的 指令 。 要 介绍 这 一 类 ， 需 要 引入 x86 指令 集中 的 
代码 权限 级 (Code Privilege Level，CPL) 。 有 4 个 权限 级 ， 按 照 权 限 下 降 的 顺序 为 从 0 到 3， 如 图 3. 23 
所 示 。 因 此 ， 以 较 高 权限 级 运行 的 代码 可 以 访问 以 较 低 权限 级 运行 的 代码 可 用 的 资源 。 所 以 ， 以 CPL 0 
运行 可 以 访问 CPL 1、CPL 2 和 CPL 3 对 应 的 所 有 资源 (回想 起 来 ,为 了 反映 更 高 权限 的 定义 ， 可 以 将 
其 更 精确 地 描述 为 ，CPL 0 在 外 环 ，CPL 1 在 下 一 环 ， 等 等 ， 但 是 长 远 的 做 法 是 按照 图 中 描述 的 方式 来 
对 这 些 环 进行 分 配 ) 。 两 级 操作 系统 的 做 法 是 ， 以 CPL 0 执行 系统 代码 ， 以 CPL 3 执行 用 户 代码 。 


环 0(CPL0 ) (操作 系统 内 核 代 码 ) 


环 1(CPL1) 
环 2(CPL2) 


CPL3 (用 户 程 序 代 码 ) 





ETE 类 不 可 虚拟 化 指令 的 讨论 上 来. 其 中 包含 了 引用 存储 器 保护 系统 、 内 存 或 地 址 重 定位 系 
统 的 指令 。 当 然 ， 这 一 类 相当 多 ， 因 为 即使 是 基本 指令 (类似 于 LOAD 指令 ) 也 有 需要 进行 分 段 寄存 
个 访 问 的 变量 。 

但 是 从 分 段 表 检查 访问 权限 或 分 段 大 小 的 指令 ， 需 要 确保 当前 的 权限 级 别 和 请 求 的 权限 级 别 都 要 
比分 段 的 权限 级 别 大 。 这 样 就 会 造成 执行 问题 ， 因 为 虚拟 机 不 会 以 CPL 0 去 执行 。 

包括 过 程 调 用 在 内 的 跳 转 会 产生 更 多 的 问题 ， 部 分 原因 是 它们 比 本 章 前 面 提 到 针对 简单 的 CPU 所 


© M68010 处 理 器 具有 多 个 辅助 虚拟 化 的 属性 ， 其 中 包括 配置 中 断 向 量 位 置 (之 前 始终 保持 在 低地 址 存储 右 中 ) 的 能 力 和 
处 理 实现 虚拟 内 存 所 依赖 的 “ 总线 错误 ”异常 的 能 力 ， 使 得 导致 它 的 指令 在 内 存 被 “修复 ”之 后 能 够 继续 运行 (而 不 
是 从 头 开始 运行 ) 。 

O 通常 来 说 ， 这 样 的 指令 的 数量 是 17 ， 但 是 有 一 些 观点 反对 这 个 具体 的 数字 ， 这 些 观点 认为 这 个 数字 是 根据 副作用 (不 能 
支持 虚拟 化 的 效果 ) 计数 得 出 的 。 最 有 效 的 方法 应 当 是 查看 这 些 受 影响 的 指令 的 类 别 。 
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定义 的 JUMP 和 JPR 指令 也 复杂 得 多 。 在 x86 架构 中 ， 有 两 种 类 型 的 跳 转 : 近 跳 和 远 跳 。 每 一 类 又 可 进 
一 步 细 分 为 两 个 类 别 : 跳 转 到 相同 的 权限 级 别 和 跳 转 到 不 同 的 权限 级 别 。 同 过 程 调用 类 似 ， 其 中 还 有 
任务 切换 。 如 本 章 参考 文献 LIS | 所 述 , 不 同 权 限 级 别 的 调用 和 任务 切换 的 问题 是 通过 比较 不 能 在 用 
户 级 别 正常 工作 的 操作 权限 级 别 引 起 的 。 

还 有 男 一 类 不 可 虚拟 化 的 指令 ， 即 那些 只 能 在 系统 模式 下 执行 的 指令 ， 当 尝试 以 用 户 模 式 执行 它 
们 时 ， 它 们 既 不 会 执行 ， 也 不 会 陷 人 陷阱 。 这 些 指令 有 时 也 被 称 为 不 良 指 令 。 它 们 所 带 来 的 问题 过 于 
明显 ， 这 里 不 再 讨论 。 

我 们 将 “完全 虚拟 化 ”定义 为 一 种 与 单独 物理 CPU 所 提供 的 没有 太 大 区 别 的 计算 环境 。 完 全 虚拟 
化 的 一 个 重要 特征 是 ， 不 需要 修改 在 该 环境 中 创建 的 虚拟 机 所 运行 的 操作 系统 。 显 然 ， 完 全 虚拟 化 不 
能 在 未 修改 的 x86 CPU 上 实现 。 

除了 在 每 一 条 指令 中 以 软件 模拟 CPU (这 是 不 切实 际 的 ) 之 外 ， 处理 不 可 虚拟 化 的 指令 还 有 两 种 
主要 方法 ， 将 在 下 一 节 中 讨论 。 最 终 ， 就 软件 而 言 ， 这 一 切 都 是 可 以 做 到 的 。 

然而 ， 随 着 x86 不 断 扩 展 它 的 虚拟 化 功能 ， 已 经 有 可 能 进入 纯粹 便 件 辅助 的 虚拟 化 途径 。 这 里 唯 
一 的 问题 是 x86 处 理 需 由 多 家 公司 | Intel, Cyrix, Advanced Micro Devices ( 超 微 半导体 公司 ) 和 VIA 
Technologies (威盛 电子 ) $] 制造 ， 尽 管 基本 指令 集 的 行为 在 制造 商 之 间 是 标准 化 的 ， 但 虚拟 化 机 制 
却 不 是 。Intel (VT -x) “和 AMD (Pacifica 以 及 后 来 的 AMD -V) ”向 虚拟 化 扩展 的 早期 方法 ， 在 本 章 
参考 文献 [18] 中 进行 了 很 好 的 介绍 和 比较 。 

虽然 制造 商 之 间 的 扩展 不 同 ， 但 他 们 共同 的 功能 是 提供 新 的 客户 机 操作 模式 ， 其 中 软件 可 以 请 求 
某 些 指 令 被 捕获 〈 以 及 访问 某 些 寄存 右 ) 。 其 中 伴随 着 以 下 两 个 功能 (如 本 章 参 考 文献 [19] 中 总 结 
的 ) ， 通 过 它们 实现 虚拟 化 。 

1) 硬件 状态 转换 。 在 进入 和 退出 客户 机 操作 模式 的 过 程 中 触发 硬件 状态 转换 ， 它 可 以 改变 影响 处 
理 需 操作 模式 的 控制 寄存 右 和 内 存 管 理 寄 存 需 。 

2) 退出 原因 。 退 出 原因 反映 了 客户 机 操作 模式 转换 的 相关 信息 。 

这 些 功 能 使 完全 虚拟 化 得 以 实现 。 在 回 到 这 一 点 之 前 ， 先 来 看 一 下 解决 不 可 虚拟 化 CPU 问题 的 通 
用 方法 。 


3.3.3 不 可 虚拟 化 CPU 的 处 理 “六 女友 | 


所 有 解决 方法 的 共同 点 在 于 修改 原始 的 二 进 制 代 码 。 差 异 在 于 代码 修改 的 时 间 : 是 在 运行 时 修改 ， 
还 是 通过 全 局 预 处 理 在 运行 之 前 修改 。 

采用 二 进 制 重 写 ， 虚 拟 化 环境 软件 可 以 近乎 实时 地 检查 即将 执行 的 一 组 指令 。 然 后 ， 用 陷阱 蔡 换 
原始 指令 ， 将 控制 传递 给 虚拟 机 管理 程序 ， 由 其 调用 (并 以 特权 模式 执行 ) 模拟 有 问题 指令 的 例 程 。 
这 种 机 制 与 在 3. 2. 4 节 中 描述 的 调试 工具 完全 一 致 (这 也 是 在 前 面 首先 介绍 这 个 工具 的 原因 ) ， 并 且 可 
以 推断 出 ， 它 可 能 会 干扰 其 他 调试 工具 。 正 如 本 章 参 考 文献 [20] 指出 的 ， 这 种 潜在 的 干扰 需要 将 原 
始 代 码 存储 到 位 。 这 种 技术 避免 了 操作 系统 二 进 制 代码 的 预 处 理 。 

采用 半 虚 拟 化 ， 预 处 理 是 必要 的 。 预 处 理 使 用 所 谓 的 超级 调用 替换 所 有 特权 指令 ， 其 中 所 提 到 的 
超级 调用 即 虚拟 机 管理 程序 的 系统 调用 。 实 际 上 ， 半 虚拟 化 还 涉及 二 进 制 重 写 ， 只 是 它 的 执行 在 前 
(而 不 是 实时 的 ) 并 且 在 整个 操作 系统 的 二 进 制 代码 上 执行 〈 而 不 是 指令 流 的 选择 子 集 ) 。 

这 为 虚拟 机 提供 了 一 个 软件 接口 ， 该 接口 与 实际 人 硬件 CPU 的 接口 不 同 。 修 改 的 客户 机 操作 系统 始 
终 在 环 1 中 运行 。 需 要 注意 的 是 ， 应 用 程序 代码 保持 不 变 。 半 虚拟 化 的 男 一 个 有 利 特征 是 ， 即 使 使 用 
完全 的 硬件 辅助 虚拟 化 ， 它 也 可 以 正常 工作 〈 尽 管 比 需要 的 要 慢 ) ， 所 以 虚拟 机 也 可 以 轻松 地 从 不 支持 
完全 虚拟 化 的 CPU 迁移 到 一 个 支持 的 ， 而 无 须 做 任何 更 改 (尽管 如 此 ， 在 速度 上 还 是 存在 一 定 的 损失 : 
在 半 虚 拟 化 的 系统 中 ， 系 统 调用 的 目的 是 操作 系统 内 核 ， 首先 在 虚拟 机 管理 程序 中 ， 然 后 需要 与 内 核 
进行 反复 的 交互 ) 。 

半 虚 拟 化 还 有 一 些 其 他 有 趣 的 优势 。 值 得 注意 的 一 个 是 计时 器 处 理 。 所 有 现代 操作 系统 都 依赖 于 时 钟 
中 断 来 维护 它们 的 内 部 计时 化 ， 这 对 于 实时 媒体 处 理 特别 重要 。 为 此 ， 即 使 空闲 的 虚拟 机 也 需要 处 理 时 钟 
中 断 。 通 过 半 虚 拟 化 ， 虚 拟 机 代码 被 更 改 为 在 指定 的 时 间 请 求 通知 。 没 有 它 ， 虚 拟 机 管理 程序 将 需要 为 空 
办 的 机 融 安 排 计 时 器 中 断 ， 根 据 本 章 参 考 文献 [19] 的 作者 指出 的 内 容 ， 这 是 不 可 扩展 的 。 
38 








太一 个 优点 是 可 以 采用 多 处 理 器 架构 工作 。 直 到 现在 ， 假 设 在 简化 的 CPU 架构 中 只 有 一 个 CPU， 
但 这 并 不 符合 现代 机 器 的 情况 。 从 理论 上 讲 ， 操 作 系 统 处 理 多 个 CPU 的 方式 与 处 理 一 个 CPU 的 方式 相 
同 。 通 过 模块 化 设计 ， 只 有 调度 程序 和 中 断 处 理 程序 需要 充分 意识 到 两 者 之 间 的 差异 。 这 里 没 必 要 对 
此 进行 深入 的 探究 ， 我们 注意 到 ， 基 于 x86 的 多 处 理 器 架构 采用 用 于 中 断 重 定 问 的 高 级 可 编程 中 断 控 
til¢s (Advanced Programmable Interrupt Controller, APIC) 来 支持 对 称 式 多 重 处 理 (Symmetric Multi - 
Processing，SMP) 。 在 虚拟 模式 下 访问 APIC 的 代价 是 高 昂 的 ， 因 为 需要 多 次 进入 和 退出 虚拟 机 管理 程 
序 (参见 本 章 参 考 文献 [19] 的 代码 例子 )。 借 助 可 以 查看 全 部 代码 的 半 虚 拟 化 ， 多 个 APIC 的 访问 请 
求 可 由 一 个 超级 调用 来 替代 。 

在 处 理 WO 设备 时 ， 也 可 以 实现 类 似 的 效果 。 总 体 来 说 ， 读 者 可 能 已 经 注意 到 了 ， 半 虚拟 化 实际 
上 是 一 种 编译 方式 ， 因 此 它 拥 有 编译 器 享 有 的 所 有 代码 优化 优势 。 

不 全 的 是 ， 半 虚拟 化 也 有 一 些 缺 点 。 本 章 参 考 文献 [19] 的 作者 注意 到 ， 在 将 x86 -64 Linux 移植 
到 Xen 时 ， 他 们 “明显 体验 到 了 纯 软 件 半 虚拟 化 的 复杂 性 ”， 并 认为 导致 这 种 复杂 性 的 根本 原因 是 强制 
“内 核 开 发 人 员 处 理 本 就 存在 明显 限制 和 与 本 地 CPU 相 比 具有 不 同行 为 的 虚拟 CPU”。 除 此 之 外 ， 这 样 
的 “行为 ”还 需要 新 的 中 断 和 蜡 常 机 制 ”， 以 及 新 的 保护 机 制 。 

有 趣 的 是 ， 在 茶 些 情况 下 ， 如 应 用 程序 是 VO 密集 型 的 或 需要 大 量 的 虚拟 内 存 ， 与 完全 虚拟 化 相 
比 ， 半 虚拟 化 产生 的 执行 速度 更 快 。 这 一 观察 征 洒 促使 了 混合 虚拟 化 的 发 展 。 该 想法 不 是 通过 修改 半 
虚拟 化 接口 来 添加 新 功能 ， 而 是 通过 引入 “ 伪 硬 件 ”"， 这 是 一 个 看 似 (对 内 核 来 说 ) 硬件 模块 的 内 核 
接口 。 因 此 ， 半 虚拟 化 接口 本 身 保持 最 小 化 。 创建 新 的 ， ‘O TE E” ih ii (特别 是 
MMU) 和 所 有 的 VO 设备 。 

接 下 来 ， 将 更 加 详细 地 对 LO 虚拟 化 进行 讨论 。 


3.3.4 VOM tae | 


与 我 们 喜爱 的 小 狗 一 样 ，LO 设备 已 经 发 展 到 能 够 识别 它 的 主人 一 一 物理 机 器 上 的 单个 操作 系统 。 
事实 证 明 ， 让 它们 对 多 个 拥有 者 进行 响应 是 难以 实现 的 。 正 如 本 章 参 考 文献 [22] 中 指出 的 ,“ 大 多 数 
的 鲁 件 本 和 喘 不 支持 被 多 个 操作 系统 访问 ”。 

人 们 将 更 多 的 注意 力 集 中 在 CPU 虚拟 化 的 本 身 ， 然 而 在 虚拟 环境 下 对 IO 的 处 理 却 没有 得 到 足够 
的 重视 。 假 设 虚 拟 机 管理 程序 本 本 应 该 能 够 处 理 执行 实际 的 IO， 同时 使 虚拟 机 “相信 ”它们 拥有 这 
些 设备 。 

在 某 种 程度 上 ，LO 虚拟 化 已 经 存在 了 很 长 一 段 时 间 ， 自 从 那 时 起 操作 系统 就 引入 了 假 脱 机 的 做 
法 ， 作 为 与 缓慢 设备 (例如 ， 打 印 机、 绘图 机 或 现在 已 经 淘汰 的 打卡 机 ) 的 接口 [最 初 ， 假 脱 机 
SPOOL 是 一 个 名 词 ， 它 是 外 围 设备 同时 联机 操作 (Simultaneous Peripheral Operations On - Line) 的 首 字 
HAS, 但 是 到 了 20 世纪 70 年 代 末 ， 它 已 经 成 为 了 一 个 动词 ]。 为 了 实现 假 脱 机 ， 操 作 系 统 为 进程 提 
供 了 一 种 看 似 像 到 设备 的 快速 接口 ， 而 实际 上 ， 原 始 请 求 通过 正确 的 格式 化 ， 同 所 有 其 他 指令 一 起 被 
存储 在 磁盘 上 ， 供 系统 异步 处 理 。 此 外 ， 操 作 系统 为 进程 提供 了 针对 每 种 设备 类 型 (磁盘 、 磁 带 、 终 
WMF) 统一 的 设备 接口 。 每 个 设备 的 具体 操作 “隐藏 ”在 驱动 程序 中 。 这 样 的 设计 支持 逻辑 设备 和 物 
理 设备 之 间 的 解 看 合 ， 从 而 确保 可 移植 性 〈 更 多 详细 信息 请 参见 本 章 参考 文献 [23 ] ) 。 

随 着 快速 局 域 网 的 发 展 ，LO 虚拟 化 的 男 一 个 方面 出 现 了 。 通 过 网 络 的 方式 ,设备 可 以 在 网 络 上 的 
机 融 之 间 共 吾 。 例 如 ， 对 于 网 络 上 有 一 人 台 机 器 融 有 打印 机 (有 时 其 至 是 磁盘 ) 就 足够 了 了。 该 机 器 将 通 
过 网 络 接收 WO 请 求 ， 代 表 发 送 方 执行 它们 ， 并 在 需要 时 发 送 结果 。 通 过 使 用 互联 网 传输 层 协议 [E 
传输 控制 协议 (Transmission Control Protocol, TCP) 或 用 户 数 据 报 协议 (User Datagram Protocol, UDP) , 
两 者 都 在 本 书 第 4 章 中 介绍 ] ， 可 以 实现 这 项 功能 。 人 们 可 以 预见 到 不 久 的 将 来 无 磁盘 云 设 备 的 实现 ， 
内 存 分 页 在 网 络 上 执行 ， 其 中 只 需要 一 台 机 器 拥有 真实 磁盘 即 可 。 目 前 ， 业界 已 经 开发 了 一 种 标准 
(IETF RFC 3720) ， 可 用 于 通过 TCP 传输 小 型 计算 机 系统 接口 (Small Computer Systems Interface, SCSI) 信 
县 交换 (SCS 设计 用 于 访问 外 围 设备 。 这 一 开发 在 本 书 第 6 章 有 详细 介绍 ， 作 为 存储 器 讨论 的 一 部 分 ) 。 


O ” 当 内 核 地 址 空间 需要 共享 时 ， 这 种 保护 机 制 问题 就 会 出 现 。 因 为 内 核 不 再 在 环 0 中 运行 ， 所 以 无 法 使 用 环 级 保护 ， 因 此 
需要 “在 应 用 程序 和 内 核 之 间 的 所 有 转换 之 间 拼 接地 址 空间 的 开销 " | 。 
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观察 VO 虚拟 化 设计 中 的 二 元 性 是 比较 有 趣 的 。 由 于 几 个 虚拟 机 驻 留 在 单个 物理 机 融 上 ， 一 方面 
需要 在 所 有 这 些 虚拟 机 之 间 共 享 一 个 VO 设备 ; 另 一 方面 需要 在 物理 机 器 上 模拟 计算 机 网 络 的 存在 。 
稍 后 将 讨论 最 后 一 点 。 现 在 ,我 们 观察 到 ， 至 少 有 必要 在 每 个 虚拟 机 上 维护 网 络 驱 动 程序 。 只 要 不 让 
虚拟 机 直接 访问 设备 ， 虚 拟 机 管理 程序 则 可 以 通过 直接 模拟 设备 或 使 用 盘 虚 拟 化 驱动 程序 (有效 地 将 设 
备 驱 动 程序 分 为 两 个 部 分 : 虚拟 机 前 端 部 分 和 虚拟 机 管理 程序 后 端 部 分 ) 来 支持 IO， 如 上 一 节 所 述 。 

实际 上 ， 某 些 级 别 的 模拟 也 是 必要 的 (并 上 且 一 直 存 在 于 虚拟 机 管理 程序 中 )， 即 对 低级 固件 的 模 
拟 ， 如 显卡 和 网 卡 或 基本 输入 /输出 系统 (Basic Input/Output System, BIOS) 。 

BIOS 是 一 个 很 好 的 开始 体现 复杂 性 的 例子 。 它 通 和 并 在 硬件 必 片 上 实现 ， 提 供 对 (物理 ) 机 顺便 件 
配置 的 访问 。 在 正常 情况 下 ，BIOS 选择 引导 设备 和 引导 系统 。 物 理 机 人 各 上 只 有 一 个 BIOS， 因 此 虚拟 机 
管理 程序 必须 为 每 个 虚拟 机 复制 BIOS 的 功能 。 赋 予 所 有 的 虚拟 机 完全 访问 人 硬件 的 能 力 所 市 来 的 潜在 安 
全 性 问题 不 容 低估 ， 这 使 得 它 在 虚拟 机 管理 程序 中 的 模拟 成 为 一 项 不 是 很 容易 的 任务 。 

在 上 述 所 有 的 选择 中 ， 采 用 直接 访问 IO 设备 的 选择 是 最 快 的 ， 因 此 将 其 称 为 “直接 YO”. AS 
理解 其 实现 过 程 中 所 面临 的 问题 ， 首 先 需要 对 图 3. 2 中 的 计算 机 体系 结构 进行 扩充 。 图 3. 24 通过 引入 
现在 存在 于 每 一 个 CPU 中 的 直接 内 存 存 取 (Direct Memory Access，DMA) 设备 扩展 了 这 一 体系 结构 。 


1/O 设 备 





DMA 是 用 于 将 大 量 字 节 流 传输 到 主 存储 器 或 从 主 存储 器 中 传输 出 来 的 设备 (或 者 确切 地 说 ， 它 是 
设备 控制 器 的 一 部 分 ) 。 需 要 这 种 需求 的 设备 有 磁盘 和 网 络 驱动 器 。 如 果 让 CPU 亲自 涉及 这 些 LO 流 的 
处 理 ， 那 么 CPU 将 没有 足够 的 时 间 来 进行 它 的 主 业 一 一 执行 指令 。DMA 可 以 承担 这 个 任务 ， 它 的 工作 
原理 如 下 。DMA 可 以 访问 设备 和 内 存 总 线 。 当 通过 计算 机 时 钟 来 驱动 机 器 操作 中 的 周期 运转 时 ，DMA 
可 以 周期 性 地 “窃取 ”一 些 周 期 代表 CPU 执行 内 存 传输 ， 或 者 ， 特 别 是 在 需要 进行 大 量 传输 的 情况 
下 ，DMA 在 传输 期 间 可 以 从 CPU 手中 夺取 并 占用 内 存 总 线 (在 后 一 种 情况 下 ，CPU 将 使 用 自己 的 高 速 
缓存 而 不 是 主 存储 器 进行 工作 ， 主 存储 器 将 在 后 期 更 新 ) 。 简 而 言 之 ，DMA 被 赋予 内 存 和 CPU 之 间 的 
数据 传输 任务 ， 并 且 在 某 些 架构 中 甚至 被 用 于 内 存 内 的 数据 传输 。 当 DMA 工作 完成 后 ， 将 中 断 CPU. 

DMA 的 IO 虚拟 化 问题 是 指 ， 在 传统 架构 中 DMA 需要 写 人 “真实 ”( 即 不 是 虚拟 的 ) 的 内 存 。 如 
果 这 种 方法 被 严格 遵循 ， 直 接 IO 将 为 虚拟 机 提供 未 受 保护 的 物理 内 存 访 问 ， 而 其 中 的 内 存 是 由 多 个 
虚拟 机 所 共享 的 。 所 以 ， 这 样 做 将 造成 对 安全 性 规则 的 公然 违背 。 事 实 上 ， 这 也 违背 了 隔离 性 原则 ， 
因为 一 个 虚拟 机 中 的 恶意 软件 可 能 会 危害 到 其 他 所 有 的 虚拟 机 。 

为 了 解决 这 个 问题 ， 人 们 采用 了 男 一 种 类 型 的 MMU ( 称 为 LO MMU， 有 时 也 被 拼写 为 IOMMTU ) ， 
如 图 3. 25 Aras. 与 图 3. 11 中 的 MMU 类 似 ， 其 中 MMU 为 CPU 执行 虚拟 到 实际 的 内 存 空间 转换 ，L/O 
MMU 为 DMA 执行 这 一 功能 。 因 此 ， 内 存 空间 在 设备 之 间 被 划分 ， 并 且 转 换 和 划分 的 高 速 缓存 一 般 包 含 在 
硬件 中 ， 这 通常 提供 内 存 保护 (例如 ，Intel VT -DD 方法， 相关 介绍 内 容 请 参见 本 音 参 考 文献 [21 ] ) 。 





O ”固件 是 驱动 硬件 芯片 的 一 种 微型 程序 。 有 时 ， 它 是 硬 编码 的 (不 可 擦 除 ) ， 在 有 些 情况 下 ， 也 可 以 由 用 户 进 行 修改 。 
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这 种 方法 支持 虚拟 机 隔离 并 提供 了 一 定 程 
度 的 安全 性 。 然 而 ， 如 本 章 参 考 文献 [21 ] 
中 指出 的 ， 这 里 的 问题 是 由 动态 转换 映射 引起 
的 。 这 些 问 题 与 一 般 分 页 类 似 ， 总 体 上 的 问题 
是 由 虚拟 机 管理 程序 执行 额外 的 工作 导致 的 性 
能 损失 。 实 际 上 ， 这 项 工作 需要 在 DMA 完成 
内 存 传送 之 前 执行 ， 这 又 带 来 另 一 个 DMA $ | 
作 中 容许 延迟 的 问题 。 本 章 参 考 文献 [24] ] VOR% 
中 ， 对 与 使 用 IO MMU 相关 的 性 能 问题 进行 = 
了 分 析 。 

直接 VO 以 及 整个 WO 虚拟 化 方面 仍然 是 
一 个 热门 的 研究 问题 。 知 名 著作 “伯克利 眼中 
的 云 计算 ”” 在 其 论述 的 云 部 署 的 障碍 类 别 中 列举 25“ 性 能 不 可 预知 性 ”问题 。1/O 虚拟 化 取决 于 共享 的 
LO 设备， 这 仍然 是 固有 的 依赖 性 问题 (相反 ,共享 主 内 存 和 CPU 已 经 被 证 明 可 以 有 效 地 工作 ) 。 幸 运 的 
是 ， 存 在 一 些 可 以 克服 这 个 问题 的 想法 ， 并 且 早期 IBM 大 型 机 的 成 功 也 让 人 们 在 这 些 想法 上 看 到 了 希望 。 

在 这 种 乐观 的 情况 下 ， 我 们 结束 了 对 虚拟 化 概念 和 技术 的 回顾 。 现 在 ,可 以 用 具体 的 主流 虚拟 机 
管理 程序 的 例子 来 说 明 这 些 概 念 和 技术 的 实现 。 


3.3.5 虚拟 机 管理 程序 实例 «ee 
在 本 节 中 ， 将 通过 几 个 广泛 使 用 的 虚拟 机 管理 程序 的 实例 ， 演 示 到 目前 为 止 所 讨论 的 一 些 概念 。 
这 些 虚 拟 机 管理 程序 包括 Xen 虚拟 机 管理 程序 、KVM 虚拟 机 管理 程序 以 及 VMware 和 Oracle 开发 的 虚 
拟 机 管理 程序 。 最 后 ， 将 通过 对 NOVA 微型 虚拟 机 管理 程序 的 介绍 对 本 节 内 容 进 行 总 结 ， 这 将 为 后 面 
有 关 虚 拟 机 安全 性 部 分 内 容 的 介绍 提供 一 个 自然 的 过 渡 。 
从 Xen 虚拟 机 管理 程序 开始 ， 本 章 参考 文献 [22] 对 其 进行 了 全 面 的 介绍 。Xen 是 1 型 (“ 裸 机 ”) 
虚拟 机 管理 程序 。 它 是 操作 系统 不 可 知 的 ， 实 际 上 它 可 以 同时 运行 使 用 不 同 操 作 系 统 的 客户 机 虚拟 机 。 
就 虚拟 化 分 类 而 言 ，Xen 支持 半 虚 拟 化 和 完全 虚拟 化 客户 机 ， 分 别称 为 PY 和 HVM (后 者 缩写 代 
表 “ 硬 件 辅助 虚拟 模式 ”。 当 然 ，HVM 只 能 用 在 支持 完全 虚拟 化 扩展 的 处 理 右 上 ， 同 时 支持 Intel 和 
AMD 的 处 理 器 扩展 ) 。 对 于 AVM 中 运行 的 客户 机 ，Xen 使 用 上 一 节 描 述 的 技术 来 模拟 低级 硬件 盒 固件 
部 分 ， 如 显卡 、 网 卡 和 BIOS 适 配 需 。 可 以 预见 ， 模 拟 通 第 会 导致 性 能 下 降 。Xen 通过 为 一 种 称 为 PV - 
on- HVM (或 PVHVM) 的 模式 来 处 理 这 一 问题 ， 其 中 HVM 客户 机 仅 部 分 半 虚 拟 化 。 
Xen 处 理 IO 设备 的 方法 简单 而 优雅 。 为 了 解释 它 ， 需 要 在 图 3. 26 的 帮助 下 引入 Xen 域 的 概念 。 
IO 通过 TCP 交 换 












加 ”该 障碍 编号 为 5。 
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@1 云 计算 技术 与 商业 趋势 





Xen 为 每 个 客户 机 创建 了 一 个 称 为 “ 域 ” 的 特殊 环境 。 “正常 ”的 客户 机 (除了 一 个 特殊 的 客户 机 
以 外 的 所 有 其 他 客户 机 ) 都 在 它们 自己 未 经 授权 的 域 domU 中 运行 。 域 0 (或 dom 0) 作为 一 个 特殊 域 ， 
是 为 特权 客户 机 预 留 的。 特权 客 户 机 被 称 为 “虚拟 主机 ”， 因 为 它 是 托管 其 他 所 有 虚拟 机 的 控制 系统 的 
一 部 分 。 为 此 ，dom 0 在 Xen 启动 时 创建 ， 并 且 仅 限于 运行 专用 的 操作 系统 (一 般 是 Linux， 但 是 也 支 
持 其 他 系统 ， 而 且 不 时 还 有 新 的 系统 添加 进来 ) dom 0 还 是 指定 策略 的 地 方 。 控 制 机 制 使 用 的 机 制 和 
策略 的 分 离 是 Xen 的 设计 原则 。Xen 虚拟 机 管理 程序 根据 dom 0 中 的 配置 策略 执行 这 些 机 制 。 

就 VO 而 言 ， 这 个 诀窍 就 在 于 ， 所 有 物理 设备 只 能 附加 到 处 理 它们 的 dom 0 客户 机 上 ， 具 有 已 分 配 
的 独特 权限 。 这 解决 了 LO 设备 识别 一 个 拥有 者 的 问题 。 所 有 其 他 的 客户 机 都 明白 ， 它 们 的 机 器 没有 
连接 1/0 设备 ,但 所 有 这 些 设备 都 位 于 dom 0 客户 机 所 在 的 机 器 上 。 这 不 是 问题 ， 因 为 所 有 的 虚拟 机 都 
是 网 络 可 寻 址 的 ， 因 此 可 以 使 用 网 络 1/0. 

图 3. 27 说 明了 Xen 中 的 VO 操作。 当 domU 中 的 客户 机 需要 与 设备 通信 时 ， 它 将 使 用 拆 开 的 IO 
驱动 器 的 上 半 部 分 ” 。 


dom0* 客 户 机 


Aiom0 的 局 域 网 帆 
a 





1/0 请 求 使 用 网 络 模块 通过 TCP p 被 发 送 到 ice 0. ， 在 此 过 程 中 构建 了 一 个 TCP 数据 报 ， 并 将 其 圭 
洲 成 分组。 然后 将 IP 分 组 封装 到 链 路 层 帧 内 ， 作 为 对 “真实 ”LO 的 请 求 ， 由 网 络 驱动 程序 通过 局 
域 网 (Local Area Network, LAN) 发 送出 去 。Xen 没有 简单 地 模拟 LAN, ， 而 是 将 帧 放置 在 物理 机 器 上 公 
FE (对 domU 和 dom 0 都 可 见 ) 的 内 存 分 段 中 (这 种 优化 的 做 法 ， 确 实 引 入 了 一 定 的 安全 风险 ， 因 此 需 
要 谨慎 的 保护 方案 ) 。 

dom 0 接收 LAN 上 的 帧 ， 剥 离 链 路 、 网 络 和 传输 层 的 封装 ， 并 处 理发 送 到 针对 相应 设备 的 实际 IO 
驱动 程序 的 VO 请 求 。 当 IO 工作 结束 时 ，dom 0 反 转 上 述 过 程 通过 网 络 将 其 发 送 回来 。 应 该 注意 的 
是 ， 实 际 的 操作 要 比 在 此 处 的 简单 介绍 复杂 得 多 ， 因 为 它 涉 及 支持 TCP 会 话 的 多 次 交换 ， 正 如 TCP 所 
规定 的 会 话 过 程 。 

KVM 〈 首 字母 缩 略 词 有 时 以 小 写字 母 拼 写 ) 利用 了 本 章 前 面 提 到 的 新 型 客户 机 操作 模式 。 和 Xen 
一 样 ，KVM 也 是 1 型 的 虚拟 机 管理 程序 ; 与 Xen 不 同 的 是 ，KVM 将 虚拟 机 创建 成 为 一 种 能 够 运行 在 
Linux 内 核 上 运行 的 Linux 进程 。 同 Xen 一 样 ，KVM 也 是 一 个 开源 项 目 。 


O ” 拆 分 驱动 程序 是 所 有 实现 异步 VO 处 理 机 制 的 通用 术语 。 在 网 络 WO 情况 下 ， 驱 动 程序 的 上 半 部 分 负责 对 需要 执行 IO 
处 理 的 进程 隐藏 设备 的 位 置 (以 及 设备 不 在 特定 机 器 上 的 情况 ) 。 上 半 部 分 驱动 程序 负责 将 IO 请 求 发 送 到 设备 所 在 的 
机 器 上 ， 当 然 也 可 以 接收 结果 。 下 半 部 分 驱动 程序 负责 与 实际 的 设备 相关 的 各 种 操作 。 

O ” 稍 后 将 再 次 回 到 这 种 描述 上 来 ， 因 为 在 这 种 情况 下 ， 类 型 1 和 类 型 2 之 间 的 区 别 不 是 特别 明晰 。 
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KVM 可 以 在 扩展 的 x86 CPU (包括 Intel VT 和 AMD -V) 以 及 其 他 的 处 理 器 上 支持 完全 的 本 地 虚 
拟 化 ， 并 且 这 一 列表 仍 在 扩展 。 

除了 完全 的 本 地 虚拟 化 以 外 ，KVM 还 以 半 虚 拟 化 网 络 驱动 程序 的 形式 支持 基于 Linux 和 微软 Win- 
dows 操作 系统 的 客户 机 的 半 虚 拟 化 。 在 Quick EMUlator (QEMU) 的 帮助 下 ，KVM 的 修正 版 可 以 支持 
Mac OS X, 

同样 ， 借 助 KVM 的 架构 ”， 可 以 使 用 与 常规 Linux 进程 相同 的 接口 创建 虚拟 机 。 实 际 上 ， 每 个 点 
拟 CPU 对 管理 员 来 说 似乎 都 是 一 个 常规 的 Linux 进程 ， 尽 管 这 主要 是 用 户 界 面 的 问题 。 

KVM 使 用 一 个 QEMU 的 修改 版 本 来 提供 设备 模拟 ， 该 版 本 模拟 BIOS 以 及 扩展 的 总 线 扩展 、 磁 盘 
Pein (包括 那些 SCSI1) 、 网 卡 和 其 他 的 硬件 盒 固 件 部 分 。 

具体 来 说 ， 通 过 打开 Linux 设备 节点 (/dev/kvm) 创建 虚拟 机 。 作 为 一 个 新 的 进程 ， 机 器 有 自己 的 
内 存 、 与 创建 它 的 进程 分 开 。 除 了 创建 一 个 新 的 虚拟 机 之 外 ，/dev/kvm 还 提供 了 对 内 存 分 配 、 机 器 的 
CPU 寄存 需 访 问 以 及 中 断 CPU 的 控制 。 

使 用 Linux 内 存 管理 功能 ， 内 核 可 以 在 不 连续 的 分 页 上 配置 客户 机 地 址 空间 (如 图 3. 13 所 示 ) 。 用 
户 空间 也 可 以 映射 到 物理 内 存 中 ， 这 有 助 于 模拟 DMA, 

KVM 通过 引入 新 的 执行 模式 (访客 模式 ) 来 修改 Linux， 转 换 图 如 图 3. 28 所 示 (与 UNIX RER 
SAW, Linux 文 持 其 他 两 种 模式 ， 即 内 核 模式 和 用 户 模 式 )。 





其 工作 流程 如 下 ， 用 户 级 代码 通过 Linux 的 ioctl 函数 发 出 系统 调用 ， 请 求 执行 访客 代码。 作为 
啊 应 ， 内 核 开 局 访客 代码 在 访客 模式 下 的 执行 。 这 将 持续 到 退出 事件 〈 例 如 ，LZO 指令 请 求 或 中 断 或 
超时 ) 的 发 生 。 当 CPU 退出 访客 模式 时 ， 它 将 返回 到 内 核 模式 。 内 核 处 理事 件 ， 并 根据 其 结果 来 判断 
是 恢复 访客 模式 ， 还 是 返回 到 用 户 模式 。 

正如 本 章 参考 文献 [19] 所 述 ， 与 Linux 的 高 度 整合 有 助 于 KVM 的 开发 人 员 和 用 户 改造 很 多 Linux 
功能 (例如, 调度、 进程 管理 和 特定 CPU 的 虚拟 机 分 配 ) 。 

之 前 说 KVM 是 1 型 虚拟 机 管理 程序 ， 但 开发 者 社区 对 此 存在 不 同 的 看 法 。 有 些 人 认为 KVM 是 通 
过 Linux 接口 来 管理 的 ， 因 此 事实 上 ， 虚 拟 机 是 作为 Linux 进程 出 现 的 ， 所 以 它 是 2 型 虚拟 机 管理 程序 。 
这 里 的 分 界线 是 通过 虚拟 机 管理 程序 运行 所 在 的 权限 环 作为 标准 来 划 定 的 ， 而 恰巧 ，KVM 代表 的 Linux 
子 系统 具有 最 高 的 权限 (更 不 用 说 它 运 行 在 裸 机 上 , 但 是 所 有 的 代码 也 是 如 些 ， 除 非 它 由 软件 解释 。 
在 我 们 看 来 ， 该 定义 的 区 别 在 于 授予 虚拟 机 管理 程序 代码 的 权限 ) 。 

KVM 作为 1 型 虚拟 机 管理 程序 的 问题 受到 质疑 ， 而 纯粹 的 2 型 虚拟 机 管理 程序 有 VMware® Work- 
station 和 Oracle VM VirtualBox®° ( 相 比 之 下 ，VMware ESX 和 ESXi 虚拟 机 管理 程序 是 1 型 的 ) 。 

在 回顾 x86 虚拟 化 中 引入 了 本 章 参考 文献 [18] 的 这 篇 论文 ， 还 提供 了 对 VMware Workstation 虚拟 
机 管理 程序 的 全 面 介 绍 (这 篇 论文 的 作者 更 喜欢 用 VMM 这 个 词 ) 。 与 Xen 不 同 ，VMware Workstation 通 
过 扫描 二 进 制 映像 并 使 用 陷阱 或 直接 库 过 程 调用 蔡 换 有 问题 的 指令 ， 来 近乎 实时 地 处 理 未 捕获 的 特权 
指令 问题 (需要 记 住 的 是 ， 这 里 的 区 别 在 于 Xen 使 用 半 虚 拟 化 ， 通 过 对 操作 系统 代码 的 预 处 理 来 实现 
这 种 类 似 的 结果 ; VMware 不 需要 这 样 的 预 处 理 ， 映 像 加 载 后 ， 代 码 将 随即 更 改 )。 

另 一 个 2 型 虚拟 机 管理 程序 ，Oracle VM VirtualBox (其 用 户 手 册 给 出 了 全 面 的 描述 ) 采用 了 与 


© VirtualBox 软件 最 初 由 Innotek GmbH 公司 开发 ， 该 公司 后 来 被 Sun Microsystems 收购 ， 后 者 后 来 又 被 Oracle 公司 收购 。 
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半 虚 拟 化 和 完全 软件 模拟 不 同 的 技术 组 合 ( 尽管 在 特殊 情况 下 使 用 后 者 )。 

VirtualBox 软件 通过 其 环 0 内 核 驱动 程序 建立 主机 系统 ， 使 访客 代码 实现 本 地 运行 ，VirtualBox 潜伏 
在 “下 面 "， 随 时 可 以 在 需要 的 情况 下 进行 控制 。 用 户 代 码 ( 环 3) 未 修改 ,但 VirtualBox 重新 配置 访 
客 虚拟 机 ， 使 其 系统 ( 环 0) 代码 能 够 运行 在 环 1 中 。 当 系统 代码 (现在 在 环 1 中 运行 ) 尝试 执行 特 
权 指 令 时 ，VirtualBox 虚拟 机 管理 程序 会 拦截 控制 。 在 这 一 点 上 ， 可 以 向 主机 OS 提供 指令 执行 ， 也 可 
以 通过 QEMU 重新 编译 器 运行 指令 。 

当 VirtualBox 使 用 自己 的 反 汇 编 器 -调用 重新 编译 来 分 析 代 码 时 ， 本 章 参考 文献 [26] 中 提 到 的 一 
个 有 趣 的 例子 是 “ 当 访 客 代码 禁用 中 断 时 ，VirtualBox 无 法 确定 这 些 中 断 何 时 会 被 重新 启动 "。 所 有 的 
保护 模式 代码 (如 BIOS (RAS) 也 被 重新 编译 。 

重要 的 是 ， 应 当 注 意 到 ， 目 前 提 到 的 所 有 虚拟 机 管理 程序 都 支持 实时 迁移 。 这 个 问题 很 重要 ， 因 
为 实时 迁移 涉及 虚拟 机 内 存 的 复制 ， 而 这 个 内 存 仍然 可 以 被 修改 (CEMA AR SEE A, Plat A 
然 需要 在 旧 主 机 上 继续 运行 ) ， 所 以 它 是 一 个 多 重 传递 过 程 ， 需 要 在 旧 主 机 和 新 主机 之 间 精 确 地 进行 同 
步 。 除 了 内 存 转 移 ， 还 有 其 他 方面 实时 迁移 的 问题 ， 稍 后 将 在 本 书 中 讨论 这 些 问 题 。 

与 此 同时 ， 人 们 为 了 解决 操作 系统 安全 性 的 问题 ， 通 过 让 操作 系统 内 核 尽 可 能 地 小 而 简单 ， 正 在 
开发 新 的 虚拟 机 管理 程序 (W NOVA) (通过 简单 的 量化 对 比 可 以 发 现 ，Xen 虚拟 机 管理 程序 有 约 15 
万 行 代码 ， 而 NOVA 虚拟 机 管理 程序 只 有 9000 FRE) (本 章 参 考 文献 [27] 提供 了 一 个 表格 ， 对 本 
节 提 到 的 大 部 分 虚拟 机 管理 程序 的 代码 量 进行 了 对 比 ) 。 

虽然 NOVA 并 不 否定 半 虚 拟 化 ， 但 本 章 参 考 文献 [28] 的 作者 称 :“ 我 们 并 没有 在 我 们 的 系统 中 使 
用 半 虚 拟 化 ， 因 为 我 们 既 不 想 依赖 于 客户 机 操作 系统 源 代 码 的 可 用 性 ， 也 不 需要 将 操作 系统 移植 到 半 
虚拟 化 接口 的 额外 工作 ”。NOVA 也 不 使 用 二 进 制 翻译 ， 它 只 依赖 于 完全 虚拟 化 的 硬件 支持 。 

NOVA 代表 了 第 三 代 的 微 内 核 (或 中- 内核) 系统 ， 这 些 操 作 系 统 只 能 为 应 用 程序 提供 最 基本 的 
功能 : 内 存 和 进程 管理 ， 以 及 进程 间 通 信 。 这 种 方法 背后 的 理念 是 ， 当 需要 执行 敏感 操作 时 ， 其 余 的 
操作 系统 功能 (包括 文件 系统 管理 ) ， 可 以 由 陷 人 到 内 核 的 应 用 程序 本 身 来 执行 。 微 内 核 最 初 是 与 LAN 
结合 开发 的 ， 但 后 来 的 安全 性 问题 ( 它 需 要 软件 上 的 简单 性 ) 成 为 其 发 展 的 主要 驱动 力 。 

NOVA 微 虚 拟 机 管理 程序 是 采用 微 内 核 作 
为 内 核 的 虚拟 机 管理 程序 。 它 仅 提供 最 基本 的 
虚拟 化 、 虚 拟 机 分 离 、 调 度 、 通 信和 平台 资源 
管理 机 制 ， 其 余 的 功能 都 交 由 上 层 提 供 。 为 
此 ， 每 个 虚拟 机 均 有 其 自己 关联 的 虚拟 机 监视 
器 ， 作 为 无 特权 的 用 户 应 用 程序 在 微 虚 拟 机 之 
上 运行 。 这 种 架构 如 图 3. 29 所 示 。 

需要 注意 的 是 ， 这 种 架构 与 迄今 为 止 所 回 
顾 的 所 有 其 他 架构 截然 不 同 ， 因 为 它 的 虚拟 机 
管理 程序 分 为 一 个 整体 的 微 内 核 部 分 和 为 每 个 | 图 3.29 NOVA (HE) 
虚拟 机 复制 的 用 户 部 分 。 这 里 最 重要 的 是 , 微 
考 内 核 的 设计 专门 虑 了 安全 性 : 虚拟 机 管理 程序 的 分 解 使 特权 代码 的 数量 实现 了 最 小 化 。 

但 是 ， 正 如 本 章 参 考 文献 [28] 的 作者 指出 的 :“ 通 过 在 用 户 级 实现 虚拟 化 ,改善 了 安全 性 ,但 在 
性 能 方面 略 有 下 降 ”。 

通过 上 述 讨论 可 以 引出 本 章 下 一 节 (也 是 最 后 一 节 ) 的 主题 ， 即 安全 性 。 


3.3.6 ZZE wee | 


安全 是 迄今 为 止 云 计算 中 最 复杂 的 问题 。 云 计算 结合 了 多 种 技术 ， 所 有 与 这 些 技术 相对 应 的 每 一 
种 威胁 也 得 到 了 组 合 或 合并 。 同 时 ， 不 同 服务 和 部 署 模式 下 的 安全 需求 ， 又 使 这 个 问题 变 得 进一步 的 
复杂 化 。 这 需要 在 云 计 算 中 采取 三 管 齐 下 的 安全 措施 : 中 了 解 每 种 技术 (操作 系统 、 虚 拟 化 、 路 由 和 
交换 层 的 数据 网 络 、 网 络 应 用 程序 ， 这 里 仅 列 出 主要 的 技术 ) 所 市 来 的 安全 威胁 (并 评 佑 其 风险 ) 以 








名” 反 汇编 器 是 一 种 能 够 将 二 进 制 代 码 转 换 成 汇编 级 代码 的 程序 。 在 这 种 情况 下 ， 可 将 其 用 于 分 析 应 用 中 。 
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及 各 自 的 缓解 机 制 ; @ 根 据 具 体 的 服务 模式 和 特定 的 部 署 模式 分 析 风 险 和 机 制 ; @ 制 定 整体 的 安全 图 
示 。 本 书 将 在 一 草 内 系统 地 处 理 通 用 的 安全 机 制 ， 而 属于 各 章 特 定 的 技术 将 分 别 在 各 章 内 进行 介绍 。 
因此 ， 本 章 仅 讨论 虚拟 化 的 安全 问题 ， 其 最 终 被 归结 为 虚拟 机 管理 程序 的 安全 问题 。 

关注 虚拟 机 管理 程序 安全 问题 的 动机 现在 看 来 应 该 是 显而易见 的 。 虚 拟 机 管理 程序 是 一 个 单独 的 
安全 故障 点 。 如 果 它 受到 威胁 ， 所 有 受 它 控制 的 虚拟 机 也 都 将 受到 威胁 。 那 么 ， 它 是 如 何 受 到 威胁 的 
呢 ? 例 如 ， 某 种 精心 设计 的 蠕虫 (在 3.2.3 节 中 讨论 的 ) 可 以 “逃离 ”用 户 进 程 的 代码 并 接管 只 由 操 
作 系统 才 可 以 控制 的 计算 机 资源 。 因 此 ， 攻 击 中 的 恶意 访客 代码 (实际 上 被 称 为 虚拟 机 逃离 攻击 ) 
可 以 突破 虚拟 机 ， 控 制 虚 拟 机 管理 程序 ， 从 而 控制 同一 物理 主机 上 的 所 有 其 他 虚拟 机 。 

假设 当前 主机 硬件 已 经 被 完全 保护 ， 防 止 算 改 ,并 且 引 导 过 程 是 安全 的 ， 这 些 攻击 可 能 以 恶意 修 
改 操作 系统 和 设备 驱动 程序 的 形式 出 现 ， 调度 DMA 在 没有 I/O MMU 的 情况 下 写 人 “错误 的 ”内 存 。 
虚拟 机 与 主机 之 间接 口 细节 之 处 的 问题 ， 用 本 章 参 考 文献 [27] 的 话 来 说 ， 它 提供 了 “一 个 攻击 面 ， 
恶意 客户 机 操作 系统 可 以 利用 它 来 攻击 虚拟 化 层 ”。 如 果 接 口中 存在 漏洞 (并且 众所周知 ， 没 有 不 存在 
漏洞 的 软件 规范 ) ， 则 可 以 利用 它 来 使 虚拟 机 接管 虚拟 机 管理 程序 ， 或 者 以 相同 的 权限 级 别 来 执行 〈 这 
就 是 NOVA 架构 为 每 个 虚拟 机 提供 专用 VMM 的 原因 ， 这 个 功能 增加 了 一 个 额外 的 隅 离 层 。 即 使 虚拟 机 
接管 它 的 作为 无 特权 应 用 程序 运行 的 VMM ， 也 不 会 对 顶层 的 虚拟 机 管理 程序 造成 损害 ) 。 

当 引 导 程 序 遭 到 侵害 时 (通常 通过 对 未 受 保护 的 固件 的 攻击 ) ， 可 能 会 导致 安装 的 恶意 程序 获得 最 
高 的 运行 权限 ， 即 在 UNIX 系统 中 获得 root 权限 ， 人 们 通常 将 这 种 类 型 的 程序 称 为 rootkit。 最 糟糕 的 是 ， 
rootkit 一 般 无 法 被 检测 到 。 

本 章 参 考 文献 [29] 简要 介绍 了 有 关 rootkit 的 历史 。rootkit 最 开始 以 “特洛伊 木马 ”” 的 形式 出 
现 ， 此 时 它 主要 是 以 用 户 级 别 的 权限 运行 ， 运行 之 后 将 自己 隐藏 起 来 ， 危害 性 较 小 。 但 是 ， 随 着 管理 
工具 的 出 现 ， 这 些 工具 能 够 检测 到 它们 ， 因 此 rootkit 逐渐 发 展 成 为 内 核 级 的 恶意 程序 。 只 要 人 入侵 检测 
工具 能 够 发 现 它 们 ， 它 们 就 会 找到 新 的 方式 徐 避 检测 。 

rootkit 或 者 具有 类 似 rootkit 隐 喘 表现 的 非 恶 意 程 序 ， 已 经 被 人 们 用 于 看 似 合 法 的 目的 《执行 版 权 保 
护 就 是 这 样 的 一 个 例子 ) ， 不 过 在 法 律 方面 这 似乎 是 一 个 灰色 地 带 。 人 们 对 rootkit 进行 了 大 量 的 学 术 研 
究 ， 旨 在 发 现 rootkit 可 能 利用 的 漏洞 。 本 章 参考 文献 [29] 中 描述 的 SubVirt 项 目 ， 由 微软 和 密歇根 大 
学 共同 开发 。 基 于 虚拟 机 的 rootkit ( Virtual Machine - Based Rootkit, VMBR) 是 该 项 目的 一 项 成 果 。 
VMBR 通过 操纵 系统 启动 顺序 将 自 喘 插入 到 虚拟 机 管理 程序 和 目标 操作 系统 之 间 。 这 既 可 以 通过 远程 
漏洞 (本 章 参考 文献 [29] 中 未 具体 指出 什么 漏洞 ) 实现 ， 也 可 以 通过 社会 工程 (欺骗 用 户 、 买 通 供 
应 商 ， 或 破坏 “对 等 网 络 上 存在 的 可 引导 的 CD - ROM 或 DVD 镜像 ”) 的 方法 实现 。 一 旦 获得 了 root 权 
限 ，VMBR 就 会 被 安装 在 磁盘 上 (这 需要 对 一 些 磁 盘 区 块 及 其 包含 的 数据 进行 窜改 ) 。 此 时 ， 引 导 记 录 
也 以 避免 这 种 修改 被 实际 检测 到 的 方式 被 巧妙 地 修改 了 。 为 了 实现 这 一 点 ,“ 在 大 多 数 进 程 和 内 核子 系 
统 退 出 之 后 ， 在 关机 的 最 后 阶段 ” ， 引 导 区 块 被 操纵 。 据 报道 ， 微 软 的 Windows XP 和 Linux 操作 系统 都 
被 这 种 方式 人 侵 过 ， 本 章 参考 文献 [29] 对 相关 技术 细节 进行 了 介绍 。 就 虚拟 机 管理 程序 而 言 ， 据 报 
道 , 已 经 在 Linux/ VMware 和 微软 Windows/ VirtualPC 平台 上 实现 了 概念 性 验证 YMBR 。 

也 许 VMBR 仍然 是 一 个 鲜 为 人 知 的 学 术 活 动 ， 研 究 人 员 没 有 将 它 投入 到 实际 的 运用 情况 (在 这 种 
情况 下 ， 可 以 进行 一 系列 的 “服务 ”, 例如 ,“ 键 盘 项 击 嗅 探 器 、 钓 鱼 式 攻 击 网 络 服务 器 、 用 于 搜索 用 
户 敏感 数据 文件 的 工具 ， 以 及 防止 普通 VMM 检测 技术 的 检测 对 策 ”)。 研 究 人 员 还 演示 了 ， 他 们 的 YM- 
BR 可 以 有 效 地 修改 操作 系统 中 可 以 观察 到 的 状态 ， 这 使 得 它 非常 难以 被 发 现 一 一 确实 很 难 发 现 ， 以 至 
于 本 书 的 作者 之 一 使 用 一 台 已 经 被 注入 我 们 的 概念 性 验证 VMBR 的 机 器 ， 却 完全 没有 意识 到 。 

检测 这 类 rootkit 的 防御 策略 的 关键 点 是 在 VMBR 以 下 的 层 上 运行 检测 软件 ， 以 便 它 能 够 “ 读 取 物 
理 内 存 或 磁盘 并 查找 指示 VMBR 存在 的 签名 或 异常 ， 例 如 ， 被 修改 了 的 启动 顺序 "。 这 种 级 别 的 保护 可 
以 在 固件 中 实现 。 还 建议 使 用 安全 引导 技术 进行 预防 ， 在 我 们 看 来 ， 这 是 最 好 的 方法 。 但 是 ， 如 果 通 
过 社会 工程 的 方法 ， 让 安全 的 启动 介质 〈 即 压缩 的 CD-ROM) 中 毒 ， 则 上 述 方法 将 失去 效果 。 

SubVirt VMBR 是 针对 标准 情况 (不 可 虚拟 化 的 x86 CPU) 实施 的 ， 而 男 一 个 研究 项 目 开 发 的 Blue 
Pill VMBR 则 是 专 为 完全 可 虚拟 化 的 AMD 芯片 设计 的 。Blue Pill 的 代码 对 外 免费 提供 ,但 是 人 们 对 这 个 


名 “特洛伊 木马 是 一 种 看 起 来 像 〈 或 声称 自己 是 ) 另 一 种 (一 般 是 知名 的 ) 应 用 程序 的 程序 。 
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项 目 存 在 重大 的 争议 ， 因 此 很 多 公司 阻止 通过 它们 的 公司 网 络 访问 这 些 网 页 。 

到 目前 为 止 ， 本 书 已 经 分 析 了 一 些 安全 方面 的 情况 ， 包 括 恶意 软件 “接管 ”虚拟 机 管理 程序 ， 或 
者 以 虚拟 机 管理 程序 级 别 的 权限 运行 。 事 实证 明 ， 控 制 虚拟 机 管理 程序 本 身 ， 可 能 不 会 造成 什么 损害 。 
但 利用 虚拟 机 隔离 中 的 漏洞 ， 则 足以 造成 损害 。 

即便 是 一 个 不 经 意 〈 被 动 的 ) 攻击 ， 只 要 攻击 者 知道 哪些 是 秘密 信息 ， 也 会 造成 严重 的 损害 。 为 
此 ， 重 要 的 是 要 了 解 并 记 住 与 物理 计算 机 内 部 工作 有 关 的 信息 ， 即 便 这 些 信息 看 起 来 没什么 重要 性 ， 
也 会 被 泄露 并 造成 重大 损害 后 果 。 存 在 一 系列 的 劳 道 攻击 (Side - Channel Attack ) ， 其 中 硬件 (例如 ， 
CPU、 内 存 或 其 他 设备 ) 使 用 模式 在 攻击 者 利用 下 可 以 泄露 出 各 种 秘密 信息 ， 包 括 加 密 密 钥 。 

承载 虚拟 机 的 物理 主机 的 相关 信息 必须 给 予 保密 (后面 将 会 提 到 ， 这 与 网 络 和 服务 提供 商 在 保护 
基础 设施 相关 信息 安全 方面 长 久 以 来 的 做 法 非常 相似 ) 。 这 就 解释 了 本 章 参 考 文献 [30] 的 作者 提供 
的 实验 报告 [他 们 的 实验 使 用 了 大 型 云 提供 商 针对 Xen 虚拟 机 管理 程序 (并 基于 dom 0 IP 地 址 的 比较 ) 
推出 的 服务 ] 会 在 业界 中 引起 巨大 得 动 的 原因 。 

研究 人 员 通 过 演示 证 明 ,“ 获 得 内 部 云 基 础 设施 的 映射 图 ， 确 定 特定 目标 VM 可 能 的 驻 留 位 置 ， 然 
后 实例 化 新 的 VM 与 目标 VM 共同 驻 留 是 可 能 的 ”。 一 有 旦 实例 化 ， 机 需 就 会 开局 路 虚拟 机 的 劳 道 攻击 ， 
从 而 得 到 (通过 CPU 数据 缓存 ) CPU 的 利用 率 测量 值 。 基 于 这 些 数 据 可 以 进行 各 种 攻击 ,包括 键盘 蚤 
击 计 时 (其 中 攻击 者 可 以 利用 两 次 连续 项 击 键盘 的 时 间 间 隔 猜 测 输入 的 密码 ) ， 本 章 参 考 文献 [ 30 | 
介绍 了 有 关 这 方面 内 容 。 

在 推荐 的 各 种 降低 风险 的 方法 中 ， 本 章 参 考 文献 [30] 的 作者 提 到 了 云 提供 商 服务 的 内 部 结构 和 
置 放 策略 之 间 的 问题 。 例 如 ， 提 供 商 可 以 禁止 基于 网 络 的 共同 驻 留 检 测 。 还 有 一 种 有 点 模糊 的 建议 是 
“采用 盲 法 技术 最 大 限度 地 减少 可 能 泄露 的 信息 "。 但 是 ， 问 题 在 于 人 们 无 法 预测 什么 类 型 的 信息 可 能 
会 被 攻击 者 用 作 旁 道 。 本 章 参 考 文献 [30] 的 作者 认为 ， 最 好 的 解决 方案 是 “将 风险 和 置 放 决策 直接 
暴露 给 用 户 " 。 因 此 ， 用 户 可 能 需要 专用 的 物理 机 器 并 为 此 承担 相应 的 费用 。 不 幸 的 是 ， 这 就 违反 了 云 
计算 的 原则 。 目 前 ， 将 旁 道 攻击 作为 上 述 方案 的 理由 在 人 们 看 来 还 有 些 牵 强 。 但 是 ,保护 云 提供 商 基 
础 设施 信息 的 意识 却 是 重要 的 、 合 理 的 ， 也 是 及 时 的 。 在 本 书后 面 的 内 容 中 ,将 讨论 实现 这 种 做 法 的 
机 制 。 

在 本 章 的 内 容 中 ,介绍 了 与 虚拟 机 管理 程序 相关 的 一 些 NIST EN 

1) 供应 商 发 布 虚拟 灿 管 理 程序 之 后 ， 要 及 时 安装 与 之 相关 的 所 有 更 新 。 大 多 数 的 虚拟 机 管理 程序 
都 有 上 自动 检查 更 新 的 功能 ， 并 在 发 现 更 新 的 时 候 就 会 自动 安装 。 集 中 式 的 补丁 管理 方法 也 可 以 用 于 管 
理 更 新 。 

2) 限制 对 虚拟 机 管理 程序 接口 的 管理 访问 。 使 用 专用 管理 网 络 保护 所 有 管理 通信 渠道 ， 或 者 使 用 
FIPS 140 — 2 验证 的 加 密 模 块 对 管理 网 络 通信 进行 验证 和 加 密 。 

3) 将 虚拟 化 基础 设施 同步 到 受信 任 的 权威 时 间 服 务 硕 。 

4) 从 主机 系统 断 开 未 使 用 的 物理 硬件 。 例 如 ， 可 插 拔 磁盘 驱动 希 可 能 偶尔 用 于 备份 或 还 原 ， 但 是 
当 它 没有 被 使 用 时 ， 应 当 将 其 与 主机 的 连接 断 开 。 断 开 所 有 网 络 上 未 使 用 的 NIC” (网卡)。 

5) 茶 止 所 有 的 虚拟 机 管理 程序 服务 ， 如 客户 机 操作 系统 和 主机 操作 系统 之 间 的 剪贴 板 或 文件 共 
享 ， 除 非 需 要 用 到 它们 。 这 些 服务 中 的 任何 一 个 都 可 以 成 为 攻击 者 利用 的 工具 。 在 多 个 客户 机 操作 系 
统 与 主机 操作 系统 共享 同一 个 文件 夹 的 情况 下 ,文件 共享 也 可 以 成 为 这 种 情况 下 系统 上 的 一 种 攻击 
RIT o 

6) 考虑 使 用 自省 功能 ”来 监控 每 个 客户 机 操作 系统 的 安全 性 。 如 果 客 户 机 操作 系统 遭 到 威胁 ， 则 
其 安全 控制 可 能 会 被 禁用 或 重新 配置 ， 以 便 隐 藏 任何 受到 威胁 的 迹象 。 在 虚拟 机 管理 程序 中 内 置 安全 
服务 可 以 实施 安全 监控 ， 即 使 在 客户 机 操作 系统 受到 威胁 时 。 


日 ”强烈 建议 读者 完整 地 阅读 这 篇 论文 ， 同 时 建议 不 熟悉 IP 网 络 的 读者 先 来 学 习 第 4 章 内容 ， 再 回 过 来 阅读 这 篇 论文 。 本 书 
第 4 章 中 介绍 了 一 些 必 备 的 网 络 背 景 。 
将 在 本 书后 面 内 容 中 详细 讨论 这 一 问题 。 
NIC 代表 网 络 接口 控制 器 ， 它 是 一 种 将 计算 机 连接 到 LAN (在 物理 层 ) 的 设备 。 
“自省 功能 ”这 一 术语 指 的 是 那些 超出 正常 虚拟 机 管理 功能 的 虚拟 机 管理 程序 的 功能 。 这 些 功 能 包括 监控 虚拟 机 之 间 的 
业务 流量 、 访 问 文件 系统 、 内 存 和 程序 执行 ， 以 及 所 有 有 助 于 检测 入 侵 的 其 他 活动 。 
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7) 考虑 使 用 自省 功能 来 监控 客户 机 操作 系统 之 间 产 生 的 活动 的 安全 性 。 这 对 于 在 非 虚拟 化 环境 中 
通过 网 络 进行 传输 并 通过 网 络 安全 控制 [例如 ， 网 络 防火 墙 、 安 全 设备 与 网 络 人 侵 检 测 和 防护 解决 方 
案 (Intrusion Detection and Prevention Solution, IDPS) 传感器 ) 进行 监控 的 通信 来 说 尤其 重要 。 

8) 仔细 监控 虚拟 机 管理 程序 本 身 是 否 有 遭 到 威胁 的 迹象 。 这 包括 使 用 虚拟 机 管理 程序 提供 的 自我 
完整 性 监控 功能 ， 以 及 对 虚拟 机 管理 程序 日 志 进 行 持续 的 监控 和 分 析 。 

顺便 说 一 句 ， 业 界 中 存在 一 种 观点 ， 只 要 代码 量 大 小 增加 ， 就 会 增加 被 攻击 的 可 能 性 ， 因 此 认为 
带 有 目 省 服务 的 虚拟 机 管理 程序 可 能 会 提供 额外 的 攻击 媒介 。 同 时 ， 这 样 做 在 性 能 方面 也 存在 一 定 的 
问题 。 

另 一 种 方法 是 开发 一 种 特权 设备 ， 即 通过 对 外 开放 虚拟 机 管理 程序 的 API 来 提供 自省 服务 的 虚拟 
机 。 这 样 既 考虑 了 性 能 问题 ( 因为 这 种 服务 是 在 设备 层面 上 执行 的 ) ， 又 解决 了 虚拟 机 管理 程序 代码 里 
变 的 问题 。 但 是 ， 如 果 没 有 对 上 自省 API 的 访问 加 以 控制 以 将 其 仅 限 定 在 特定 设备 上 ， 则 对 外 开放 这 种 
API 可 能 是 非常 危险 的 。 

然而 ,还 有 一 种 工作 在 受 控 环境 (如 私有 云 ) 中 的 自省 方法 ， 即 完全 避 开 虚拟 机 管理 程序 ， 而 是 
在 每 个 虚拟 机 中 安装 类 似 于 rootkit 的 代理 。 由 这 些 代 理 来 监控 虚拟 机 的 行为 并 将 它们 记录 下 来 。 

人 们 一 直 在 进行 着 有 关 虚 拟 化 安全 性 方面 的 研究 。 普 林 斯 顿 大 学 正在 研究 一 种 名 为 NoHype 的 新 方 
法 ””。 在 这 种 方法 中 ， ae OLE BEREE j ! 是 为 虚拟 机 准备 运行 的 环境 ， 然 后 将 其 分 配给 仅 由 相应 机 
ar “PHAN” RER CPU 核心 。 这 种 方法 可 以 适用 于 特别 敏感 的 情况 ， 其 中 使 用 了 最 高 级 别 的 虚拟 机 
隔离 ( 几乎 使 用 了 独立 的 计算 机 )。 
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第 4 章 》> 
数据 网 络 一 一 云 的 神经 系统 


本 章 所 述 的 内 容 在 第 3 章 中 已 经 提 到 过 。 在 第 3 章 中 ， 不 止 一 次 地 提 到 了 数据 网 络 ， 因 此 ， 本 章 将 
对 这 一 问题 进行 全 面 的 介绍 和 深入 的 人 研究。 

数据 网 络 指 的 是 能 够 实现 计算 机 与 计算 机 通信 的 一 组 技术 。 最 终 珊 来 的 结果 是 ， 两 个 位 于 不 同 计 
算 机 上 的 进程 可 以 实现 彼此 通信 。 反 过 来 ， 这 又 可 以 支持 分 布 式 处 理 。 读 者 可 能 记得 ， 在 同一 个 机 器 
上 实现 进程 间 通 信和 是 操作 系统 的 任务 。 因 此 ， 通 过 网 络 在 机 器 之 间 实 现 这 种 功能 目 然 也 会 涉及 操作 
系统 。 

事实 上 ， 数 据 通信 和 操作 系统 的 学 科 自 20 世纪 60 年 代 以 来 一 直 在 发 展 。 在 早期 的 系统 中 ， 通 过 用 
于 物理 网 络 访问 的 新 设备 驱动 程序 和 用 于 路 网 络 的 进程 间 通 信 的 专用 库 〈 与 机 需 中 内 核 提供 的 进程 间 
通信 库 不 同 ) 这 两 种 方式 来 添加 数据 通信 和 能力。 有 趣 的 是 ， 早期 的 跨 网 络 进程 间 通 信 本 号 并 不 是 目 
的 - ， 它 只 是 一 种 用 来 实现 对 远程 资源 (通常 是 文件 ) 访问 的 手段 。 文 件 传 输 是 主要 的 数据 网 络 应 用 。 
男 一 个 是 交易 系统 (例如 ， 在 银行 或 航空 公司 票务 预定 中 使 用 的 那些 系统 )， 其 中 用 户 输 入 一 条 命令 ， 
可 以 引起 远程 机 靛 数据库 做 出 相应 的 动作 ， 从 而 从 这 人 台 机 盘 获 得 啊 应 。 

到 20 世纪 80 年 代 末 ， 操 作 系 统 的 演进 沿 着 两 个 分 支 方向 进行 : 由 网 络 操作 系统 ， 它 提供 了 一 种 环 
境 ， 用 户 可 以 访问 远程 资源 ， 并 意识 到 这 些 资源 是 远程 的 ; 多 分 布 式 操作 系统 ， 它 提供 了 一 种 环境 ， 
用 户 可 以 像 访问 本 地 资源 一 样 访问 远程 资源 。 这 一 发 展 本 号 就 非常 有 趣 ， 其 结果 在 本 划 参 考 文献 [1] 
中 有 很 好 的 描述 。 此 外 ， 我们 推荐 本 章 参 考 文献 [2] 作为 一 本 有 关 分 布 式 计算 的 百科 全 书 式 参 考 书 
籍 。 不 止 一 种 方式 ， 这 些 发 展 目标 与 云 计算 的 目标 非常 相似 ， 因 为 这 些 目 标 包 括 对 迁移 的 支持 ， 体 现 
在 3 个 方面 : 数据 迁移 涉及 将 文件 或 其 中 的 一 部 分 移动 到 访问 机 和 大; 计算 迁移 涉及 在 远程 计算 机 上 调 
用 所 需 的 计算 (计算 所 需 的 数据 驻 留 在 远程 机 器 上 ) ， 并 将 计算 结果 返回 给 访问 机 需 ; 进程 迁移 涉及 在 
远程 机 器 上 执行 程序 (例如 ， 出 于 负载 平衡 的 目的 )。 当 然 ， 云 计算 可 以 通过 完全 虚拟 机 (而 不 是 进 
fe) 迁移 的 方式 来 加 强 上 自身 的 功能 。 不 过 ， 一 种 新 兴 的 趋势 是 在 廉价 的 微 处 理 需 上 运行 新 的 应 用 程序 。 
这 样 ，CPU 虚拟 化 部 分 在 弹性 实现 方面 就 变 得 不 那么 重要 ， 而 数据 网 络 的 重要 性 仍 将 突出 。 

由 于 篇 幅 有 限 ， 本 书 无 法 专注 于 分 布 式 处 理 的 细节 内 容 。 姓 运 的 是 ， 在 这 方面 有 很 多 著名 的 专 若 
(包括 刚刚 提 及 的 参考 文献 ) 。 在 本 章 余 下 的 内 容 中 ,将 主要 在 万 维 网 方面 介绍 有 关 分 布 式 计算 的 内 容 。 

回 到 数据 网 络 ， 至 少 它 需要 计算 机 的 物理 互 连 ， 如 图 4. 1a 所 示 。 当 然 ， 这 种 形式 的 互 连 是 云 计 算 
的 一 个 重要 方面 ， 因 为 它 会 影响 云 中 、 任 意 两 个 联合 云 之 间 ， 以 及 需要 访问 云端 的 计算 机 与 云 之 间 的 
数据 交换 。 

值得 注意 的 是 ， 图 4. 1b 体现 的 双重 性 (在 上 一 革 中 已 经 不 止 一 次 提 到 过 )。 这 里 ， 因 为 物理 机 笑 
“转换 ”为 虚拟 机 整合 在 一 台 物 理 机 右上 ， 所 有 网 络 软 件 都 必须 保持 不 变 ， 所 以 现在 位 于 同一 台 物 理 机 
大 中 的 “物理 网 络 ” 实 际 上 由 虚拟 机 管理 程序 进行 有 效 的 模拟 。 

就 数据 网 络 内 容 的 介绍 而 言 ， 尽 量 让 本 书 的 内 容 目 成 体系 且 内 容 完 整 。 

从 数据 网 络 的 概述 开始 ， 使 用 国际 标准 化 组 织 ( International Organization for Standardization, ISO) 
制定 的 经 典 开 放 系 统 互 连 (Open Systems Interconnection, OSI) W, OSI 参考 模型 是 解释 数据 通信 原 





O 同 语音 和 文本 通信 一 样 ， 那 时 人 们 也 考虑 了 通过 这 种 方式 进行 资源 通信 。 
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理 机 器 主要 问题 的 最 佳 通 用 工具 。 所 有 的 数据 通信 协议 都 〈 或 多 或 少 地 ) 适合 该 模型 。 并 且 ， 特 定 协 
议 适用 的 问题 通常 会 使 人 们 对 所 涉及 问题 产生 更 深入 的 理解 。 

在 讨论 了 该 模型 之 后 ， 介 绍 了 网 际 协议 (Internet Protocol, IP), 并 回顾 了 互联 网 协议 族 。 在 回顾 
的 过 程 中 , RER, 尽管 互联 网 是 围绕 着 少数 具体 范例 设计 的 ， 并且 仅 考 虑 了 为 数 不 多 的 几 个 应 用 程 
F, 但 它 仍 然 具有 相当 强 的 可 扩展 性 。 通 过 稍 后 将 用 到 的 几 个 实现 服务 质量 (Quality of Service, QoS, 
一 种 支持 特定 容量 的 “数据 管道 ”的 能 力 ) 的 标准 化 方法 的 实例 来 展示 这 种 可 扩展 性 。 


MUTT) 





图 4.1 云 计算 网 络 的 双重 性 


一 个 重要 的 问题 是 外 网 络 中 的 寻 址 和 路 由 问题 (应 当 作为 单独 的 一 节 内 容 ， 虽然 在 这 方面 有 专门 

的 参考 书目 ) 。 之 后 ， 将 用 一 节 来 专门 介绍 多 协议 标签 交换 (Multi - Protocol Label Switching, MPLS) , 
该 技术 通过 有 效 地 引入 了 一 种 基于 分 组 交换 的 综合 电路 交换 技术 ， 几 乎 跳出 了 IP 的 范畴 。 

基于 前 面 讨论 的 功能 ， 为 下 一 步 虚 拟 化 引入 了 一 个 新 的 维度 。 该 维度 涉及 网 络 虚拟 化 ， 而 不 是 计 
算 机 虚拟 化 。 企 业 可 以 使 用 一 组 机 制 从 运营 商 的 网 络 或 互联 网 中 打造 一 种 网 络 来 取代 建设 单独 的 专用 
网 络 ， 所 打造 的 这 种 网 络 看 起 来 像 一 种 专用 的 私有 网 络 ， 即 虚拟 专用 网 (Virtual Private Network, 
VPN)。 公 共 电 话 网 已 经 提供 了 这 种 功能 (参见 本 章 参 考 文献 [3] 了 解 相 关 细 节 和 历史 ) ， 为 企业 提供 
了 一 种 独特 的 编号 方案 ， 以 便 电话 呼 叫 始终 能 够 通过 相同 的 方式 来 完成 ， 无 论 呼 叫 者 在 相 邻 的 办 公 室 ， 
还 是 分 别处 于 不 同 的 国家 中 。 

在 数据 网 络 的 情况 下 ， 在 这 一 点 上 上， 准确 地 说 ， 电 话 已 经 成 为 数据 网 络 的 另 一 种 应 用 ， 因 此 ， 我 
们 正在 步 入 一 种 情况 ， 除 了 数据 网 络 之 外 ， 真 的 没有 任何 其 他 的 网 络 。 图 4. 2 描述 了 几 种 VPN 变 体 。 
图 4. 2a 所 示 的 专用 网 ， 由 企业 完全 拥有 。 通 常 ， 这 样 的 网 络 覆 盖 了 单个 企业 园区 。 如 果 一 个 企业 有 两 
个 园区 ， 这 两 个 网 络 可 以 通过 一 种 “管道 ”实现 互 连 ， 如 图 4. 2b 所 示 (顺便 提 一 下 ， 这 是 前 面 讨论 过 
的 NIST 参考 架构 中 描述 的 云端 运营 商 提供 的 一 种 互 连 方式 ) 。 图 4. 2c 描述 了 一 种 场景 ， 企 业 的 不 同 部 
分 (园区 网 络 甚至 个 人 用 户 ) 通过 运营 商 公 共 网 络 或 互联 网 来 构建 VPN, 

有 关 该 问题 的 进一步 发 展 ， 本 书 另 起 一 节 ， 介 绍 了 软件 定义 网 络 (Software - Defined Network, 
SDN ) ， 该 技术 为 网 络 运营 商 在 数据 分 组 路 由 和 转发 的 集中 决策 方面 ， 提 供 了 更 多 的 控制 权 。 

和 上 一 章 一 样 ， 本 章 最 后 也 以 安全 性 的 问题 收尾 ， 概 述 了 网 络 安全 方面 的 内 容 ， 只 不 过 这 次 讨论 
的 范围 仅 限于 网 络 层 的 安全 性 。 
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”图 4.2 专用 网 和 虚拟 专用 网 一 


4.1 OSI 参考 模型 


OSI 参考 模型 (首次 发 布 于 1984 年 ， 随 后 在 10 年 后 进行 修订 ”) 成 功 使 用 了 一 种 分 而 治之 的 方法 
解决 了 在 不 同 主机 上 运行 的 两 个 进程 之 间 彼 此 通信 的 复杂 问题 。 尽 管 许多 实际 的 OST 标准 最 终 被 放弃 ， 
以 利于 互联 网 标准 的 发 展 〈 参 见 本 章 参考 文献 [5] ， 该 文献 很 好 地 解释 了 其 中 的 原因 和 这 项 工作 的 历 
史 ) ， 但 该 模型 仍然 在 用 ” 。 图 4. 3 强调 了 该 模型 中 的 关键 方面 。 首 先 ， 端 点 被 构造 为 七 层 实体 ， 每 层 
都 是 一 个 独立 的 模块 ， 负 责 特定 的 通信 功能 。 


主机 
应 用 程序 
应 用 层 
表示 层 
会 话 层 





图 4.3 0SI 参 考 模型 


O 为 此 ， 很 多 OS 概念 甚至 协议 最 终 也 被 用 在 网 际 协议 集中 。 
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该 模型 包含 两 个 方面 : 一 个 是 机 器 间 通 信 ; 另 一 个 是 单个 机 器 内 的 处 理 。 在 本 节 的 剩余 部 分 内 容 
中 ,将 论 及 这 些 方面 ， 然 后 对 每 层 分 别 给 出 相应 的 功能 介绍 。 


4.1.1 主机 到 主机 通信 «ee @ 


每 层 作 为 单独 的 模块 ， 被 设计 成 直接 与 其 对 应 的 层 进行 “通话 ”( 如 图 4.3 中 的 虚线 所 示 ) 。 一 组 
与 具体 层 相 关 的 消息 及 定义 其 顺序 的 规则 被 称 为 协议 。 例 如 ， 文 件 传 输 (或 许 是 最 早 的 数据 通信 应 用 
可 能 需要 一 组 协议 ， 用 来 包含 复制 给 定 文件 的 消息 以 及 一 组 操作 状态 消息 〈 包 括 报 错 消息 ) 。 

虽然 消息 的 实际 传输 由 底层 完成 ， 终 止 于 依赖 物理 媒介 传输 数据 的 物理 层 ， 但 从 外 部 来 看 , “直接 
的 ” 层 内 消息 〈 称 为 协议 数据 单元 ) 被 完好 无 损 地 提供 给 端点 的 接收 模块 。 

端点 实体 通过 寻 址 方案 进行 标识 。 因 此 ， 应 用 层 的 端点 通过 应 用 程序 定义 寻 址 方案 进行 标识 ， 会 
话 层 的 端点 通过 会 话 层 寻 址 方案 进行 标识 ， 以 此 类 推 。 保 持 模块 化 的 主要 规则 是 ， 给 定 层 不 应 当知 道 
其 以 下 层次 中 发 生 了 什么 ， 只 需 了 解 层 间接 口 定 义 的 内 容 (后 面 ， 在 讨论 网 际 协议 时 ， 将 会 看 到 ， 同 
其 他 规则 一 样 ， 这 项 规则 将 被 打破 ) 。 

不 同 层 次 之 间 的 端点 含义 是 不 同 的 。 从 应 用 层 到 会 话 层 ， 对 话 者 是 通过 应 用 程序 实体 在 模型 中 表 
示 的 应 用 程序 进程 。 对 于 传输 层 ， 端 点 是 机 器 本 身 。 但 是 网 络 层 完全 不 同 ， 如 图 4.3 所 示 ，、 它 通过 多 
台 机 器 作为 中 继 传输 协议 数据 单元 ， 直 到 该 数据 单元 到 达 预 期 的 接收 者 主机 。 

这 种 交付 模式 值得 特别 注意 ， 因 为 它 有 两 种 苑 争 模式 。 一 种 模式 ， 称 为 无 连接 。 在 这 种 模式 中 ， 
网 络 像 邮 政 系统 一 样 工 作 。 一 旦 具有 接收 者 地 址 的 信封 被 投入 系统 中 ， 它 就 可 能 会 通过 多 个 中 继 站 ， 
直到 到 达 服 务 接收 者 的 邮局 。 人 们 以 往 (也 许 仍 然 在 ) 通过 信件 进行 象棋 游戏 。 在 游戏 的 每 一 个 回合 
中 ， 通 信者 在 信件 中 写 下 其 将 要 走 的 下 一 步 棋 ， 然后 发 送 给 对 方 ， 并 等 待 对 方 的 动作 。 需 要 注意 的 是 ， 
信封 传递 的 路 线 可 能 会 因 信封 的 不 同 而 有 所 不 同 ,但 都 需要 遵守 邮件 接收 规定 ， 以 及 受制 于 可 用 的 运 
输 途 径 。 通 过 信件 下 棋 是 一 件 缓慢 的 事情 。 

男 一 种 模式 ， 称 为 面向 连接 ， 类 似 于 电话 。 这 种 模式 典型 的 应 用 示例 是 电话 会 话 。 在 20 世纪 的 传 
统 公 用 电话 交换 网 (Publice Switched Telecommunications Network, PSTN) 中 ,电话 交换 机 在 电话 机 之 间 
建立 了 一 个 端 到 端的 路 由 《【 称 之 为 电路 ) ， 连 接 两 部 电话 。 一 旦 建立 起 来 ,该 电路 将 持续 保持 ， 直 到 会 
话 结束 。 此 外 ，PSTN 可 以 根据 客户 的 要 求 建 立 半 永久 的 电路 ， 连 接客 户 企 业 的 各 个 部 分 ， 从 而 建立 一 
种 VPN。 这 种 模型 是 天 然 的 物理 “在 线 ” 连 接 ， 但 它 也 被 应 用 到 了 数据 通信 中 ， 即 在 网 络 层 定义 了 虐 
拟 电 路 ”。 与 无 连接 模式 相 比 ， 面 向 连接 模式 的 优点 是 业务 通信 相对 简单 〈 即 保证 了 端 到 端 延迟 的 上 限 
及 其 方差 ， 称 为 抖动 ) 。 缺 点 是 这 种 模式 需要 资源 来 维持 电路 ， 从 而 导致 潜在 的 资源 浪费 。 回 到 前 面 国 
际 象棋 的 例子 ， 如 果 玩 家 使 用 电话 代替 邮件 ， 该 游戏 的 进行 速度 必然 加 快 ， 但 是 其 所 需 的 电话 费用 必 
然 比 邮件 的 费用 高 得 多 ， 因 为 在 玩家 思考 其 下 一 步 棋 如 何 走时 ， 也 需要 保持 电话 线路 的 连通 。 

将 多 次 回 到 这 一 话题 。 正 如 将 看 到 的 ， 这 两 种 模式 在 发 展 结合 的 过 程 中 ， 仍 然 存在 。 本 章 参考 文 
献 [3] 对 这 些 模 式 在 电话 网 络 和 互联 网 络 中 的 发 展 进行 了 详细 的 介绍 和 论述 。 最 后 需要 注意 到 ， 在 OSI 
参考 模型 下 ， 图 中 看 到 的 包含 网 络 操作 的 中 间 这 些 机 器 的 最 高 层 是 网 络 层 。 将 这 些 机 顺 称 为 网 元 〈 网 络 元 
素 ) 。 通 党， 网 元 也 被 称 为 交换 机 或 路 由 器 一 一 其 中 的 区 别 来 自 于 相应 的 模式 : 面 回 连接 或 无 连接 。 

最 后 ， 链 路 层 和 物理 层 都 可 以 处 理 单 个 物理 链 路 ， 从 而 连接 两 个 网 元 ， 或 网 元 和 端点 主机 。 








4.1.2 层 间 通信 *** 

在 教授 数据 通信 和 操作 系统 方面 的 经 验证 明 ， 对 计算 模型 的 理解 ( 即 应 用 程序 进程 上 下 文中 什么 
被 调用 ， ee ch rd te i 

应 当 注意 到 ， 模 型 并 不 意味 着 实现 ， 尽 管 很 多 实现 都 是 基于 一 个 或 另 一 个 已 有 的 模型 产生 的 。 最 
Bg ree bor ageing 步 。 对 于 这 些 标准 规范 ， 将 朝 着 将 其 付 诸 实现 


名 ”再 次 建议 读者 阅读 本 章 参考 文献 [5] 来 获得 有 关 这 些 技术 和 协议 的 详细 信息 。 
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的 方 回 迈 出 这 样 的 一 步 。 

根据 OSI 模型 ， 每 一 个 层次 都 为 其 上 一 层 定 义 好 了 服务 。 该 服务 是 通过 在 层 之 间 传 递 信息 实现 的 
一 组 功能 。 

这 里 ， 关 键 的 问题 是 通信 进程 如 何 与 图 4. 3 中 的 层 进 行 交 互 ， 以 及 这 些 层 如 何在 单个 机 器 〈 主 机) 
上 彼此 交互 。 

OSI 规范 指出 ， 为 了 将 协议 数据 单元 发 送 到 对 端 ， 所 在 层 需要 向 其 下 层 发 送 请 求 。 这 些 层 严格 按照 
分 层 结构 进行 交互 ， 而 不 会 绕 过 它们 的 排列 顺序 。( 从 对 问 层 ) 到 来 的 协议 数据 被 携 市 到 下 层 发 出 的 指 
示 中 。 因 此 ， 每 一 层 从 其 上 层 接收 请 求 ， 并 将 其 自己 的 请 求 发 送 给 它 的 下 一 层 ; 类 似 地 ， 每 一 层 从 其 
下 层 接 收 指示 ， 并 将 其 自己 的 指示 发 送 给 它 的 上 一 层 。 虽 然 这 种 模式 比较 简洁 ,但 它 是 比较 抽象 的 ， 
因此 可 能 会 市 来 完全 不 同 的 实现 结果 。 

先 从 一 个 简单 但 相对 低 效 的 实现 开始 ， 其 中 每 一 层 作 为 一 个 单独 的 进程 实现 ”， 并 且 使 用 进程 间 的 
通信 传递 消息 。 这 会 带 来 一 种 相当 慢 的 操作 ， 并 且 存 在 内 在 的 困难 。 由 于 指示 和 请 求 是 异步 的 ， 因 此 
简单 的 实现 〈 可 能 取决 于 给 定 操 作 系统 的 消息 传递 能 力 ) 至 少 需要 每 一 层 有 两 个 进程 〈 或 单独 的 进程 
中 有 两 个 线程 ) 。 一 个 进程 〈 或 线程 ) 执行 等 待 指示 并 将 其 向 上 传播 的 紧凑 循环 ， 另 一 个 进程 等 待 请 求 
并 将 其 向 下 传播 。 稍 微 好 点 的 方法 是 等 待 〈 或 者 从 上 一 层 ， 或 者 从 下 一 层 ) 消息 ， 然 后 相应 地 处 理 它 。 

在 图 4.4 的 帮助 下 ， 描 述 一 个 有 效 的 计算 模型 的 一 种 方法 是 ， 将 层 定义 为 带 有 两 种 方法 的 类 : 请 
求 和 指示 ， 以 及 由 层 的 功能 需求 决定 的 适当 的 数据 结构 和 常量 。 请 求 方法 仅 由 上 一 层 调 用 ; 指示 方法 
仅 由 下 一 层 调用 。 l 


请 求 (由 上 一 层 调 用 ) 协议 数据 单元 


首部 | 。 有效 载荷 ”| | 





指示 (由 下 一 层 调 用 ) 


根据 0SI 模型 ， 在 主机 和 网 元 上 ， 每 一 层 均 需 要 有 相应 类 的 对 象 被 实例 化 。 对 象 按 照 该 层 协议 规 
范 的 定义 交换 协议 数据 单元 。 当 某 一 层 发 送 协议 数据 单元 时 ， 会 在 上 面 附加 一 个 首部 ,来 进一步 描述 
首部 后 面 的 有 效 载 荷 。 然 后 ， 调 用 其 下 一 层 的 请 求 方法 ， 将 该 协议 数据 单元 传递 给 它 。 在 计算 模型 中 ， 
请 求 动作 开始 于 应 用 程序 进程 本 身 ， 因 此 ， 所 有 后 续 的 调用 都 是 在 该 进程 的 上 下 文 (应 用 程序 实体 ) 
中 执行 的 。 

从 上 一 层 对 下 层 请 求 方法 的 调用 ， 将 在 某 一 时 刻 导致 下 一 层 对 相应 层 请 求 方法 的 调用 。 不 过 ， 这 
并 不 一 定 都 会 产生 这 样 的 动作 。 例 如 ， 在 调用 下 一 层 的 请 求 方法 之 前 ， 该 层 的 请 求 行为 可 能 需要 将 数 
据 累 加 到 某 一 点 。 相 反 ， 当 调用 请 求 方 法 时 ， 可 能 会 在 下 一 层 导 致 多 个 请 求 被 调用 ， 因 为 有 可 能 需要 
将 一 个 大 的 协议 数据 单元 在 下 一 层 分 解 成 多 个 较 小 的 协议 数据 单元 ( 例如， 一 个 巨大 的 文件 可 能 无 法 
使 用 一 个 协议 数据 单元 发 送 ， 因 此 将 这 样 的 文件 从 一 个 机 器 复制 到 另 一 个 机 器 的 请 求 ， 往 往 会 导致 多 
个 数据 单元 被 发 送 。 稍 后 将 看 到 更 多 的 例子 ) 。 

同样 的 考虑 也 适用 于 指示 方法 的 调用 。 正 如 在 较 高 层 发 送 的 消息 ， 可 能 需要 在 下 一 层 被 分 解 成 较 
小 的 数据 单元 进行 处 理 ， 因 此 接收 到 的 消息 在 传递 给 上 层 之 前 可 能 需要 进行 重新 组 装 。 

我 们 知道 ， 在 这 种 请 求 链 中 的 第 一 个 请 求 是 由 应 用 程序 进程 调用 的 。 但 是 第 一 个 指示 是 由 谁 调用 
的 呢 ? 当然 ， 就 是 那个 用 来 监听 设备 从 网 络 接收 数据 的 部 分 。 正 如 我 们 所 知 ，CPU 可 以 监听 设备 信号 ， 
这 表明 第 一 个 指示 方法 应 该 由 相关 的 终端 服务 例 程 调用 ， 其 余 的 调用 都 从 那里 传播 。 


O 已 经 看 到 了 这 种 实现 中 的 情况 ,产生 的 性 能 非常 粳 糕 ， 以 至 于 该 项 目 最 终 被 废止 。 
O ” 当 进 程 需要 发 送 数据 时 ， 会 产生 从 应 用 程序 进程 到 应 用 层 的 请 求 ， 并 且 很 容易 看 出 ， 其 余 的 请 求 如 何 链接 到 原始 的 请 
求 。 然 而 ， 这 些 指示 通常 是 由 从 网 络 中 接收 的 消息 引起 的 。 
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现在 进入 设备 主题 。 应 当 注 意 的 是 ， 链 路 层 和 物理 层 通常 都 是 以 硬件 的 方式 实现 的 ， 网 元 中 的 部 
分 网 络 层 也 是 如 此 。 因 此 ， 实 际 面向 设备 的 接口 可 能 需要 保持 在 上 层 。 而 且 ， 从 互联 网 的 讨论 中 可 以 
看 出 ， 一 些 应 用 程序 完全 跳 过 了 上 面 几 层 ， 所 以 这 种 应 用 程序 进程 可 能 需要 面 对 应 用 层 以 下 的 层 ， 从 
图 4. 5 对 整个 模型 的 描述 中 可 以 体现 这 一 点 。 


应 用 程序 进程 







应 用 程序 支持 
的 插件 例 程 







应 用 程序 进程 面 对 层 
S| | 网 络 设备 面 对 层 


从 网 络 设备 中 断 服务 例 程 





图 4.5 整个 计算 模型 概览 | 

需要 注意 的 是 ， 该 模型 为 应 用 程序 提供 的 指示 方法 给 了 一 个 明确 的 位 置 ( 省略 了 “进程 ”一 词 ， 
因为 进程 被 定义 为 应 用 程序 代码 的 主线 ) 。 指 示 方 法 由 应 用 程序 作为 插件 导出 ， 因 此 最 终 被 调用 不 是 通 
过 应 用 程序 进程 ， 而 是 由 操作 系统 作为 中 断 处 理 的 一 部 分 。 

总 而 言 之 ,我 们 反复 强调 ， 所 描述 的 只 是 一 种 模型 ， 而 不 是 具体 实现 的 方法 。 模 型 的 目的 是 阐明 
概念 的 所 有 方面 。 在 0SI 层 间 交换 的 情况 下 ， 主 要 问题 是 指示 的 异步 性 质 。 事 实 上 ,很 多 年 前 ， 本 书 
的 一 位 作者 曾 是 Sperry Univac 公司 团队 的 成 员 ， 该 公司 就 是 使 用 前 面 介绍 的 这 种 方式 ， 在 Varian 数据 
机 (Varian Data Machines) 小 型 计算 机 上 实现 OSI 协议 族 变 体 。 准 确 来 说 , 链 路 层 和 物理 层 是 在 硬件 
(单独 的 板子 ) 上 实现 的 ; 其 余 的 部 分 是 通过 对 象 库 来 实现 的 - 。 不 过 ， 这 种 实现 是 由 操作 系统 中 没有 
进程 间 通 信 机 制 决 定 的 。 





4.1.3 层 的 功能 描述 k*k 


接 下 来 将 从 应 用 层 开 始 ， 按 照 目 顶 而 下 的 顺序 进行 描述 。 毫 不 奇怪 ,后 者 的 标准 描述 没有 太 多 的 
内 容 。 不 过 ， 除 了 数据 传输 之 外 ， 其 主要 功能 包括 通过 适当 的 寻 址 方案 识别 对 话 者 的 身份 、 参 与 通信 
的 认证 、 授 权 以 及 对 QoS 参数 的 协商 (将 在 全 网络 的 背景 下 详细 讨论 其 中 的 最 后 一 点 )。 

还 有 一 个 重要 功能 是 建立 抽象 语法 上 下 文 ， 这 涉及 数据 结构 (最初 定 义 在 高 级 语言 中 ) 到 比特 位 
字符 串 的 转换 。 这 样 做 的 必要 性 源 自 于 早期 的 数据 通信 ， 从 字符 编码 开始 。IBM 终端 使 用 扩展 的 二 进 
制 编码 十 进 制 交换 码 (Extended Binary Coded Decimal Interchange Code，EBCDIC)， 这 是 IBM 操作 系统 
的 通用 语言 ， 而 Bell 系统 电 传 则 使 用 美国 信息 交换 标准 码 ( American Standard Code for Information Inter- 
change，ASCI) ， 其 起 源 于 电报 。 小 型 计算 机 操作 系统 采用 ASCII， 它 也 是 虚拟 电 传 终端 使 用 的 标准 。 

字符 表示 仍然 是 一 个 重要 的 问题 ， 它 促使 了 与 互联 网 国际 化 有 关 的 新 标准 的 出 现 , 但 是 这 个 问题 
只 是 数据 结构 表现 形式 的 冰山 一 角 。 首 先 ， 这 些 机 器 的 架构 在 八 位 比特 组 (一 个 字 节 ) 的 比特 读 取 方 


O ”准确 地 说 ， 当 时 没有 面向 对 象 的 语言 使 用 ， 所 以 严格 来 说 ， 实 现 的 是 一 种 子 程序 调用 库 ， 这 些 库 是 单独 的 模块 编译 的 ， 
每 层 一 个 模块 。 每 个 模块 对 应 着 一 个 程序 ， 具 有 自己 的 数据 结构 和 程序 库 。 数 据 仅 对 模块 内 的 程序 可 见 。 
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式 中 有 所 不 同 ， 普 遍 有 两 种 选项 一 一 从 左 到 右 和 从 右 到 左 。 而 且 ， 计 算 机 字 (word, Hid 16 位 还 是 32 
位 的 ) 中 的 字 节 顺序 在 不 同 的 架构 之 间 也 是 不 同 的 ， 有 符号 整数 和 浮 点 数 的 表示 也 是 一 样 。 因 此 ， 需 
要 一 种 对 网 络 连接 比特 字符 串 进 行 构建 (由 发 送 者 ) 和 解释 〈 由 接收 者 ) 的 机 制 ， 这 正 是 抽象 语法 上 
下 文 的 用 处 所 在 。 

最 后 ， 应 用 层 的 OSI 标准 在 无 连接 和 面向 连接 的 操作 模式 之 间 是 不 同 的 。 安 全 功能 ， 以 及 负责 建 
立 错误 恢复 和 同步 的 功能 ， 仅 被 分 配给 面向 连接 的 模式 。 

从 表示 层 开 始 ， 所 有 层 都 为 其 直接 上 层 提 供 了 特定 的 服务 。 表 示 层 的 服务 是 识别 所 有 可 用 的 传输 
语法 ( 即 网 络 连接 上 比特 位 字符 串 的 布局 ) ， 以 及 对 所 使 用 的 传输 语法 的 选择 。 除 此 之 外 ， 表 示 层 为 会 
话 层 提供 传递 方式 和 途径 ， 通 过 将 传输 语法 映射 为 抽象 语法 来 有 效 地 对 会 话 有 效 载 荷 进行 翻译 转换 。 
协商 传输 语法 是 表示 层 的 功能 之 一 。 这 里 有 必要 看 一 下 计算 方面 的 知识 : 传递 到 表示 层 的 每 一 个 携带 
有 效 载 荷 的 请 求 ， 都 会 导致 对 会 话 层 请 求 的 调用 。 相 反 ， 传 递 到 会 话 层 的 每 一 个 携带 有 效 载荷 的 指示 ， 
也 都 会 导致 对 表示 层 指示 的 调用 。 两 者 被 同步 处 理 ， 表 示 层 负责 翻译 转换 有 效 载荷 9。 

会 话 层 在 两 个 进程 (通过 它们 各 自 的 表示 实体 ) 之 间 通 过 会 话 地 址 提供 双 工 连接 。 会 话 层 服务 包 
括 连接 和 数据 传输 的 建立 和 释放 ， 以 及 连接 重新 同步 ， 管 理 和 相关 的 异常 报告 。 此 外 ， 还 有 一 个 令 牌 
管理 服务 ， 可 以 让 通信 进程 轮流 执行 控制 功能 。 会 话 层 可 以 为 较 短 的 会 话 协议 数据 单元 提供 一 种 特殊 、 
加 急 服务 ， 用 以 支持 服务 质量 需求 ” 。 

上 述 服 务 只 与 面向 连接 的 模式 有 关 。 在 无 连接 的 模式 中 ， 会话 层 服务 只 不 过 是 到 传输 层 的 中 间 传 
递 过 程 。 

传输 层 实 际 实现 了 这 些 功 能 ， 用 来 支持 为 上 述 各 层 定义 的 服务 。0SI 设计 的 宣称 目标 是 优化 “对 可 
用 网 络 服务 的 使 用 ， 从 而 以 最 低 的 成 本 来 为 每 个 会 话 实体 提供 所 需 的 性 能 ” 。 

传输 层 为 会 话 层 提供 的 服务 ， 实 际 上 与 其 为 会 话 层 定义 
的 那些 服务 不 同 ， 但 是 传输 层 是 唯一 正在 从 事 这 项 工作 的 层 。 
一 个 有 趣 的 功能 是 会 话 多 路 传输 ， 如 图 4. 6 所 示 。 

这 里 有 三 个 会 话 (AC, BD 和 EF) 被 多 路 传输 到 主机 X 
和 YY 之 间 传 输 层 连接 之 中 (不幸 的 是 ， 从 OSI 标准 的 一 开 
始 ， 该 模型 就 一 直 没 有 被 实现 ， 而 是 始终 保持 互 操作 性 的 方 
式 。 正 如 所 看 到 的 ， 互 联网 模式 完全 没有 考虑 会 话 层 和 传输 
层 之 间 的 差异 )。 反 过 来 ， 传 输 层 可 以 将 传输 连接 多 路 传输 
到 网 络 层 连接 上 。 其 中 ， 后 者 在 必要 的 时 候 也 可 以 被 分 开 。 

传输 层 的 其 他 独特 功能 还 包括 传输 协议 数据 单元 序列 控 
制 ， 传 输 控制 数据 单元 的 分 片 和 级 联 ， 流 量 控 制 ， 以 及 差错 
检测 与 恢复 ， 所 有 这 些 功能 都 是 通过 加 急 数据 传输 和 服务 质 | uina 
量 监控 来 增加 和 加 强 的 。 在 面向 连接 的 模式 中 ， 这 组 功能 保 | 图 4.6 0ST 传 输 层 申 的 会 话 多 路 传输 
证 了 一 种 可 控 、 端 到 端 无 差错 通信 管道 的 存在 9。 

实现 这 一 点 可 以 说 是 一 项 重大 的 壮举 ， 因 为 无 连接 的 网 络 可 能 会 导致 传输 的 数据 单元 无 序 或 完全 丢失 。 
传输 层 连接 的 建立 和 拆除 本 身 就 是 一 个 意义 重大 的 问题 (从 第 6 章 引用 的 参考 文献 [5] 中 可 以 看 出 )。 

一 旦 连接 建立 ,传输 层 必须 历数 它 所 发 送 的 所 有 数据 单元 ”， 然 后 跟踪 来 自 对 端的 包含 有 接收 数据 





O 我们 将 看 到 ， 美 国 国防 部 高 级 研究 计划 局 网 络 (Advanced Research Projects Agency Network, ARPANET) 协议 的 设计 人 员 
(后 来 制定 了 网 际 协议 集 ) 放弃 了 表示 层 。 但 是 ， 该 功能 被 引 和 人 到 以 后 的 互联 网 应 用 层 协议 中 〈 当 越 来 越 多 的 应 用 程序 
需要 它 时 ) ， 为 抽象 传输 语法 提供 了 多 个 不 同 的 选项 。 

O 最初, 互联 网 不 接受 服务 质量 这 个 概念 ， 但 稍 后 将 会 看 到 ， 最 终 互 联网 还 是 接受 了 这 个 概念 ， 甚 至 使 用 了 OS 中 的 术 

语 。 不 过 ， 互 联网 将 对 服务 质量 的 支持 放 在 了 传输 层 和 网 络 层 中 。 

在 面向 连接 的 模式 中 ， 上 述 功能 中 只 存在 端 到 端 差 错 检 测 和 服务 质量 监控 这 两 个 功能 。 

自然 ， 这 些 序 号 有 一 个 定义 的 大 小 ， 因 此 要 将 它们 对 某 个 数 M 进行 取 模 数 运算 ， 但 是 这 样 又 带 来 了 另 一 个 设计 问题 : 必 
须要 确保 在 任何 时 间 没 有 具有 相同 序号 的 消息 是 未 完成 处 理 的 。 
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单元 序号 的 确认 。 所 有 未 得 到 确认 的 协议 数据 单元 均 需 要 被 重新 传送 。 在 接收 侧 ， 对 于 带 有 非 连 续 序 
号 的 每 两 个 协议 数据 单元 ， 传 输 层 必须 等 待 直到 收集 到 所 有 数据 单元 能 够 圆满 无 漏 地 填充 这 两 个 非 连 
续 序号 之 间 的 间隙 时 ， 才 能 将 该 数据 传递 给 会 话 层 。 在 调 校 多 个 参数 的 过 程 中 ， 用 到 了 复杂 的 试探 法 ， 
尤其 是 定时 器 取 值 ， 并 且 由 于 在 数据 传输 过 程 中 ， 对 一 个 或 两 个 主机 都 崩 江 的 情况 需要 使 用 恢复 程序 ， 
这 就 使 整个 方案 进一步 复杂 化 。 

差错 检测 与 纠正 需要 计算 传输 协议 数据 单元 的 标准 哈 硕 (hash) Ke (Ain, REAM) RENE 
送 计算 后 的 量 值 (通常 将 其 作为 首部 的 一 部 分 ) ， 接 收 方 在 接收 的 消息 上 计算 这 一 函数 ， 并 将 其 计算 结 
果 与 首部 中 包含 的 发 送 方 计算 的 量 值 进行 对 比 。 在 最 简单 的 情况 下 ,没有 差错 纠正 被 调用 。 如 采 比 较 
失败 ， 接 收 的 消息 将 被 丢弃 ， 并 且 接 收 方 不 会 为 该 消息 回 送 确认 。 没 有 确认 最 终 会 叶 致 发 送 方 对 这 一 
消息 进行 重新 发 送 。 

差错 纠正 使 用 特殊 的 哈 希 函数 ， 它 的 结果 会 携带 “元 余 ”比特 ， 以 便 使 有 效 载 荷 中 损坏 的 比特 位 
被 重新 构造 成 为 可 能 。 循 环 元 余 校 验 (Cyclical Redundancy Check, CRC) 是 一 种 典型 的 用 于 差错 校正 
的 哈 希 函数 ，CRC 在 硬件 中 实现 的 性 能 最 佳 。 我 们 注意 到 ， 在 互联 网 中 ,传输 控制 协议 (Transmission 
Control Protocol ，TCP， 一 种 简单 的 校 验 和 例子 ) 用 于 此 目的 ， 通 过 重新 传输 实现 差错 控制 。 

网 络 层 为 传输 层 提 供 的 基本 服务 是 传输 实体 之 间 的 数据 传输 。 因 此 ， 目 的 是 屏蔽 传输 层 通过 网 元 
中 继 其 协议 数据 单元 的 细节 。 网 络 层 协议 数据 单元 被 称 为 分 组 。 

在 网 络 中 ， 从 主机 到 达 的 分 组 可 能 会 被 分 解 成 很 多 较 小 的 块 ， 通 过 不 同 的 路 由 进行 发 送 〈 想 象 一 
下 ,需要 通过 邮局 将 lt 重 的 邮包 寄 往 海外 。 很 有 可 能 ， 会 被 要 求 将 邮包 拆 分 成 多 个 较 小 的 邮包 。 之 后 ， 
一 些 邮包 可 能 会 以 船只 的 方式 送 达 目 的 地 ， 而 其 他 的 会 通过 飞机 送 往 目 的 地 )。 这 几乎 就 是 无 连接 网 络 
层 模 式 工 作 的 原理 。 

在 OSI 模型 中 ， 网 络 层 文 持 面 向 连接 和 无 连接 两 种 操作 模式 ， 但 这 两 种 模式 是 完全 不 同 的 ， 这 使 
得 OSI 网 络 层 相当 复杂 (在 互联 网 模式 中 ， 面 向 连接 的 模式 最 初 被 人 们 完全 拒绝 , 但 一 旦 引入 ,网络 
层 也 就 变 得 复杂 了 ) 。 

在 面向 连接 模式 中 ， 网 络 连接 建立 阶段 会 创建 穿越 网 络 的 端 到 端 虚 电路 。 换 名 话说， 在 网 络 中 一 
个 主机 的 路 由 在 连接 持续 期 间 内 建立 一 次 ， 所 以 给 定 虚 电 路 上 所 有 分 组 都 将 穿 过 相同 的 网 元 。 这 有 助 
于 为 每 个 连接 设计 网 络 并 保证 其 特定 的 服务 质量 参数 ,例如 吞吐 量 和 端 到 端 传 输 延 人 运 ( 及 其 变化 )。 此 
外 ， 面 癌 连 接 模 式 允 许 传 输 层 将 其 功能 的 大 部 分 外 包 给 网 络 层 。 这 种 模式 的 主要 缺点 是 在 连接 期 间 绑 
定 网 元 中 的 资源 需要 文 付 一 定 费 用 。 在 极为 罕见 的 情况 下 ， 如 果 端 点 只 需要 交换 一 个 短 销 息 ， 则 无 须 
建立 和 维护 大 部 分 时 间 处 于 空闲 状态 的 连接 。 然 而 ， 如 果 需 要 经 常 建立 短 连接 ， 那么 连接 建立 事件 将 
成 为 一 个 不 得 不 考虑 的 因素 。 还 有 一 个 缺点 是 单 点 故障 : 如 果 某 个 网 元 崩溃 ， 则 通过 该 网 元 的 所 有 虚 
电路 都 将 被 断 开 ， 并 且 所 有 相应 的 会 话 将 被 终止 。 这 些 缺 点 对 典型 业务 是 没有 影响 的 ， 正 如 基于 一 组 
ITU -TX 系列 建议 (其 中 最 著名 的 是 X. 25 ”协议 ， 其 中 对 网 络 层 进行 了 规范 ) 的 公共 服务 数据 网 
( Public Service Data Networks, PSDN) 所 示 。 

这 里 的 发 展 出 现 一 点 历史 的 迁 回 还 是 值得 的 。 对 面 回 连接 服务 的 研究 既 不 是 学 术 性 的 ， 也 不 是 某 
种 标准 化 的 工作 。 到 20 世纪 60 年代 末 ， 企 业 人 迫切 需 要 将 其 在 地 理 位置 上 相互 分 离 企 业 部 分 的 计算 机 连 
接 起 来 。 在 当时 ， 已 经 拥有 了 庞大 网 络 (企业 实际 上 被 连接 到 这 种 网 络 上 ) 的 电信 公司 ， 是 唯一 能 够 
满足 这 种 企业 需求 的 候选 机 构 。 

在 20 世纪 70 年 代 ， 紧 跟着 公共 交换 电话 网 (Public Switched Telephone Networks，PSTN ) 服务 之 
后 ， 人 们 就 开发 了 类 似 的 公共 数据 网 (Public Data Network, PDN) 服务 。Datran 数据 拨号 服务 于 1974 
年 在 美国 运行 ， 之 后 由 南 太 平 洋 通信 公司 2 提供 。Datran 数据 拨号 服务 拥有 一 种 虚 电 路 ， 它 的 误 码 率 不 
逊 于 传输 10 "个 比特 位 错误 一 位 ”。 之 后 ，PDN 服务 持续 增长 。 

在 20 世纪 80 年 代 ， 电 话 公 司 开 始 开 发 综合 业务 数字 网 (Integrated Services Digital Network, ISDN) , 
该 网 络 可 以 提供 将 电路 交换 语音 与 基于 X. 25 分 组 交换 数据 组 合 的 管道 通信 方式 ， 其 中 后 者 将 通过 PDN 


O 作为 Sprint Nextel 公司 的 前 身 ， 南 太平 洋 通信 公司 (Southern Pacific Communications Company) 是 南 太平 洋 铁路 公司 
(Southern Pacific Railroad, SPC) 的 一 个 单位 ， 它 拥有 大 量 的 通行 权 。 有 人 句 话 说 ， 运 输 业 与 电信 业 始 终 相 互 竞争 ， 但 是 在 
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虚 电 路 进行 传送 。 

在 20 世纪 90 年 代 ，ISDN 被 部 署 在 几 个 欧洲 国家 和 上 日本， 并且 其 标准 化 工作 进入 宽带 ISDN 阶段 ， 
其 中 网 络 层 采 用 X. 25 类 的 帧 中 继 和 异步 传输 模式 (Asynchronous Transfer Mode, ATM) 协议 ， 尽 管 基 
于 不 同 的 技术 ， 但 两 者 都 提供 了 虚 电 路 。 这 些 发 展 在 20 世纪 90 年 代 中 期 达到 顶峰 ,但 在 20 世纪 90 年 
代 后 期 ， 万 维 网 以 及 基于 此 的 互联 网 显然 赢得 了 最 终 的 胜利 。 当 时 ， 互 联网 标准 中 的 网 络 层 已 经 没有 
地 方 采用 回 ISO 这 样 的 面 问 连接 的 模式 ， 尽 管 如 后 所 述 ， 人 们 开始 制定 类 似 的 东西 。 

在 无 连接 的 模式 中 ， 网 络 层 将 其 处 理 的 数据 传送 到 目的 地 ， 通 常 只 能 做 到 尽力 而 为 。 一 旦 网 元 接 
收 到 分 组 ， 它 只 会 将 其 传递 给 它 的 相 邻 节点 。 选 择 相 邻 节点 的 决定 由 分 组 的 目的 地 址 和 网 络 层 的 路 由 
表决 定 ， 该 表 可 以 使 用 这 样 或 那样 的 路 由 算法 来 动态 地 进行 配置 或 构建 。 路 由 算法 计算 到 达 目 的 地 的 
最 短路 径 。 这 里 的 “ 短 ” 不 是 指 地 理 距 离 ， 而 是 指 由 分 配给 每 个 链 路 的 权重 定义 的 距离 (这 里 的 指标 
范围 从 链 路 容量 到 其 当前 的 有 效 载荷 ) 。 路 由 需要 真正 的 分 布 式 计 算 : 所 有 的 路 由 器 通过 广告 它们 的 存 
在 并 传播 关于 它们 链 路 的 信息 来 参与 该 计算 ( 再次， 建议 读者 参阅 本 章 参 考 文献 [5] 来 更 加 全 面 地 了 
解 有 关 这 一 主题 的 详细 内 容 ， 包 括 参 考 书目 ) 。 在 最 简单 的 情况 下 ， 采 用 最 初 在 ARPANET 中 考虑 的 并 
被 称 为 洪水 的 技术 。 使 用 这 种 技术 ， 不 需要 路 由 表 。 网 元 简单 地 将 它 所 接收 的 分 组 重新 发 送 到 它 的 每 
一 个 相 邻 节点 上 ， 当 然 除 了 作为 该 分 组 来 源 的 相 邻 节点 。 

无 论 是 无 连接 还 是 面向 连接 的 ， 到 目前 为 止 在 这 些 所 考虑 的 层 中 ， 网 络 层 都 是 第 一 个 基于 中 继而 
不 是 点 对 点 通信 进行 操作 的 层 。 事 实 上， 在 早期 的 网 络 (和 OSI 模型 的 早期 版 本 ) 中 ， 网 络 层 是 唯一 
一 个 明确 基于 中 继 的 层 。 因 此 ，0SI 明确 禁止 在 应 用 层 和 网 络 层 之 间 的 层 使 用 中 继 。 

现在 已 经 为 讨论 OSI 参考 模型 下 面 几 层 做 好 了 准备 ， 将 来 会 在 链 路 层 和 物理 层 之 间 进 行 介 绍 。 这 
就 是 为 什么 0SI 参考 模型 后 期 版 本 的 标准 指出 : “物理 层 的 服务 是 由 底层 媒介 的 特性 决定 的 ……: ", B 
是 链 路 层 仍然 可 以 宫 括 所 有 这 些 服务 。 这 本 身 并 没有 什么 问题 ， 因 为 链 路 层 具 有 明确 和 独特 的 功能 ， 
但 是 出 于 教学 的 原因 ， 从 底层 媒介 特性 的 角度 来 阐明 这 个 功能 的 各 个 方面 要 好 得 多 。 

回 到 数据 网 络 的 早期 阶段 ， 物 理 连接 (例如 ， 双 绞 线 ,或 从 电话 公司 租赁 的 电路 ,或 关注 的 微波 
链 路 ， 或 卫星 链 路 ) 都 是 点 对 点 的 。 因 此 ， 沿 着 线路 的 数据 传输 可 能 有 着 明显 的 误 码 率 ， 特别 是 当 涉 
及 长 距离 模拟 线路 时 。 模 拟 传输 需要 在 端点 有 调制 解 调 器 ， 并且 它 的 误 码 率 要 比 数字 传输 高 出 两 个 数 
量 级 。 

同样 ， 先 来 回顾 一 下 历史 。 在 20 世纪 80 ERA 90 年 代 初 期 ， 只 有 一 个 用 于 个 人 电话 公司 人 户 家 
庭 用 户 的 模拟 传输 业务 。 然 而 ， 数 字 业 务 可 用 于 企业 用 户 - 。 西 联 宽带 交换 业务 (Western Union Broad- 
band Exchange Service) 于 1964 年 在 得 克 萨 斯 州 成 功 推出 。 根 据 本 章 参考 文献 [7], Æ 20 世纪 70 年 代 
初 ，Multicom 和 Caducée 在 加 拿 大 和 法 国 分 别 推出 了 类 似 的 业务 ， 提供“ 速度 高 达 4800bit/s 的 全 双 工 
点 到 点 交换 业务 ， 误 码 率 低 至 之 前 一 般 只 有 专用 线路 上 才能 实现 的 程度 "” 。 实 际 上 ， 这 些 服务 是 物理 层 
PDN 服务 的 开始 。 

物理 层 服 务 本 质 上 是 一 个 原始 比特 流 。 先 来 看 一 下 点 对 点 连接 。 在 这 种 情况 下 ， 链 路 层 功能 与 传 
输 层 功能 几乎 相同 : 需要 在 两 个 端点 之 间 建 立 连接 ， 然 后 在 站 之 间 交 换 协 议 数据 单元 。 在 发 送 端 ， 链 
路 层 将 网 络 有 效 载荷 封装 成 帧 ， 帧 被 逐个 比特 地 送 到 物理 层 。 帧 中 有 效 载荷 伴随 着 纠 错 码 。 正 如 观察 
到 的 ， 连 接 可 能 出 现 故障 ， 尤 其 在 两 端 采 用 调制 解 调 器 的 长 距离 模拟 拨号 线路 上 。 因 此 ， 纠 错 是 这 种 
媒介 的 链 路 层 提 供 的 基本 功能 。 

一 些 人 对 链 路 层 上 的 纠 错 功能 进行 择 击 ， 因 为 他 们 认为 这 项 工作 由 传输 层 提 供 就 足够 了 。 图 4.7 
图 述 了 对 这 种 观点 的 反 驶 。 这 里 ， 当 采用 纠 错时 ， 在 故障 链 路 上 通过 本 地 重 传 可 以 修复 的 内 容 ， 如 果 
在 没有 采用 纠 错 时 ， 只 能 通过 在 整个 网 络 上 进行 重 传 修复 。 当 消息 路 径 中 存在 多 个 故障 链 路 时 ， 人 情况 
会 变 得 更 糟 。 

与 此 同时 ， 到 20 世纪 70 年 代 中 期 ， 物 理 媒 介 发 生 了 重大 变化 。 

从 LAN 的 发 明 开 始 ”， 广 播 媒介 大 量 出 现 。 图 4. 8 描述 了 4 种 类 型 : 总线 、 星 形 、 无 线 LAN 实际 
共享 单个 媒介 ， 以 及 环形 LAN 组 合 了 一 系列 位 转发 器 。 


O 实 际 上 ,这 是 ISDN 在 美国 部 署 的 一 个 严重 障碍 ，ISDN 需要 数字 用 户 线 。 


OESTE TEE 











，， a Ae TR |， 

这 种 发 展 以 多 种 方式 改变 了 链 路 层 的 需求 。 首 先 ， 广 播 需 要 唯一 的 链 路 层 标识 ， 必 须 在 每 个 帧 中 
明确 携带 。 其 次 ，LAN 以 高 得 多 的 比特 速率 运行 ， 从 而 实现 语音 和 视频 业务 ， 因 此 ， 设 计 服 务 质量 参 
数 来 根据 具体 业务 优先 级 分 配 带宽 是 有 意义 的 。 第 三 ,广播 的 本 质 就 是 把 一 个 基本 的 网 络 层 功能 E 
位 消息 的 接收 者 ( 当然 是 在 LAN 边界 之 内 ) 」 推 向 下 层 的 链 路 层 和 物理 层 。 第 四 ， 在 接受 一 些 网 络 层 
功能 的 同时 ， 链 路 层 可 以 轻松 地 将 维护 连接 的 功能 委托 给 传输 层 。 为 此 ， 链 路 层 中 的 “ 链 路 ”一 词 几 
平成 为 一 个 使 用 不 恰当 、 不 准确 的 词 。 第 五 ， 共 至 媒介 需要 一 组 特殊 的 访问 控制 功能 ， 从 而 形成 并 产 
生 了 不 同 的 链 路 层 子 层 。 第 六 ,广播 媒介 〈 而 不 是 点 对 点 链 路 ) 需要 实施 安全 机 制 来 保护 数据 。 

在 第 6 章 讨论 存储 方面 的 内 容 时 ， 将 再 次 回 到 局 域 网 的 主题 上 来 。 









Vint Cerf 和 Bob Kahn 在 1974 年 的 一 篇 论文 “为 网 际 协议 族 黄 定 了 基础 ” 。 论 文本 身 (tt ISO 的 
OSI 标准 项 目的 创立 早 了 三 年 ) 就 是 一 个 清晰 简洁 的 技术 方法 。 文 中 列举 了 当前 存在 的 各 个 方面 的 网 络 
问题 ， 推 凑 了 总 体 解决 方案 的 要 求 ， 并 通过 系统 应 用 简约 方法 提出 了 一 种 解决 方案 。 

本 曹参 考 文献 [9] 中 提出 的 最 初 动机 和 产生 的 要 求 是 值得 人 们 遵循 的 。 这 篇 论文 认为 ， 在 单个 分 
组 交换 网 络 中 运行 的 数据 通信 协议 已 经 存在 ,然后 列举 并 审视 了 5 个 网 络 互 操作 方面 的 问题 。 

第 一 个 问题 是 寻 址 。 认 识 到 存在 具有 “接收 机 不 同 寻 址 方式 ”多 个 网 络 ， 论 文 强调 需要 一 种 可 以 
被 每 一 个 单独 网 络 理解 的 “统一 寻 址 方案 ……”。 


O ”顾名思义 ， 该 论文 介绍 了 所 有 分 组 交换 网 络 (现在 的 和 未 来 的 ) 互联 的 解决 方案 。 
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第 二 个 问题 是 最 大 分 组 尺寸 。 因 为 给 定 网 络 可 以 接受 的 单个 数据 单元 的 最 大 尺寸 ， 在 不 同 的 网 络 
之 间 是 不 同 的 ， 并 且 最 小 的 这 种 “最 大 尺寸 ”可 能 是 “不 切实 际 的 ”， 以 至 于 不 能 在 标准 上 达成 一 致 ， 
文中 给 出 了 “人 允许 跨越 网 络 边界 将 数据 重新 格式 化 成 更 小 部 分 的 需求 程序 ”的 可 选 方案 。 

第 三 个 问题 是 针对 确认 由 的 最 大 可 接受 端 到 端 延 时 ， 该 延 时 超出 则 可 以 认为 相应 的 分 组 丢失 。 这 
种 延 时 取 值 在 不 同 网 络 之 间 是 不 同 的 。 因 此 需要 “精心 设计 并 开发 网 络 定时 程序 ， 以 确保 数据 可 以 通 
过 各 种 网 络 ， 成功 地 被 交付 ”。 

第 四 个 问题 是 数据 突 发 和 丢失 ， 这 需要 “ 端 到 端的 恢复 程序 ”来 进行 恢复 。 

第 五 个 问题 是 网 络 在 其 “状态 信息 、 路 由 、 故 障 检 测 和 隅 离 ” 中 的 变化 。 为 了 处 理 这 个 问题 ,“ 必 
须要 在 通信 网 络 之 间 启 动 各 种 协调 工作 ”。 

为 了 解决 第 一 个 问题 ， 人 们 提出 了 一 种 统一 的 网 络 地 址 ， 其 中 “TCP 地 址 ”包含 网 络 标识 符 和 
TCP 标识 符 ，TCP 标识 符 反 过 来 可 以 标识 网 络 内 的 主机 ， 而 端口 是 通信 进程 的 直接 管道 。 

为 了 解决 第 二 个 问题 ， 人 们 提出 了 网 关连 接 两 个 网 络 的 概念 。 要 知道 它 连接 的 两 个 网 络 中 的 每 一 
个 ， 网 关 在 它们 之 间 通 过 诸如 分 片 和 必要 时 的 重新 组 装 来 进行 协调 。 其 余 的 问题 可 完全 交 由 端 到 端 操 
作 进 行 处 理 。 该 论文 详细 规定 了 基于 法 国 Cyclade 系统 已 经 使 用 的 滑动 窗口 机 制 的 重 传 和 重复 检测 
过 程 。 

在 结论 中 ， 这 篇 论文 要 求 制 定 详细 的 协议 规范 ， 以 便 可 以 通过 实验 来 确定 操作 参数 (例如 ， 重 传 
超时 ) 。 

在 接 下 来 的 6 年 中 ， 人 们 遵循 上 述 提议 为 ARPANET 制定 了 相应 的 协议 规范 。 在 此 过 程 中 ， 协 议 被 
分 为 两 个 独立 的 部 分 : 网 际 协议 (Internetworking Protocol, IP), 负责 处 理 分 组 结构 和 网 络 层 的 过 程 ; 
传输 控制 协议 (Transmission Control Protocol, TCP) ， 负 责 处 理 端 到 端 传输 层 的 问题 。 虽 然 其 他 的 传输 
协议 也 被 互联 网 所 接受 ， 但 在 提 及 整个 网 际 协 议 族 时 ，TCPZIP 这 个 词 已 经 成 为 一 种 笛 态 标准 。 

1981 年 ， 稳 定 的 标准 卫 〈 了 正版 本 4 或 IPv4) 在 本 章 参考 文献 [10] 中 对 外 发 布 ， 作 为 美国 国防 部 
的 网 际 协议 ”。 该 协议 在 今天 得 到 了 广泛 的 应 用 ， 尽 管 最 新 的 标准 IPv6 目前 正在 部 署 ， 而 且 ，IETF 仍 
在 努力 开发 新 的 标准 版 本 。 


4.2.1 IP— :ES = * * * 
图 4.9 显示 了 IPv4 分 组 的 结构 ， 令 人 惊讶 的 是 ， 尽 管 其 中 有 些 字 段 已 经 被 人 们 重新 解释 ， 但 是 这 
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O 该 论文 中 的 缩写 指 的 是 “传输 控制 程序 (Transmission Control Program，TCP)”， 这 个 协议 结合 了 今天 所 说 的 TCP 和 IP. 
加 “后 来 ， 互 联网 工程 任务 组 (Internet Engineering Task Force, IETF) 于 1986 年 成 立 之 后 ， 将 该 文件 作为 RPC (Request for 
Comments， 征 求 修 订 意见 书 ) 791 对 外 发 布 。 在 本 书 的 其 余部 分 ， 将 严格 按 编号 引用 ETF RFC. 
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必须 要 理解 这 些 字 段 ， 因 为 IPv4 仍然 是 互联 网 协议 的 主要 版 本 (并 且 在 云 中 使 用 ) MEI A 
址 问题 的 IPv4 解决 方案 开始 ， 因 为 这 个 问题 首先 列 在 Cerf 和 Kahn 先前 讨论 过 的 最 初 愿景 中 。 每 个 IP 
分 组 都 有 一 个 源 地 址 和 目的 地 址 ， 它 们 具有 相同 的 类 型 — 32 位 字符 串 表 示 对 : 

< 网 络 地 址 ， 主 机 地 址 > 

需要 着 重 强 调 的 是 ,根据 其 定义 ,一 个 IP 地 址 不 是 一 个 主机 地 址 ， 因 为 对 于 一 个 主机 来 说 ， 它 不 
是 唯一 的 。 一 个 主机 可 以 是 多 宿主 的 ， 驻 留 在 多 个 网 络 上 。 在 这 种 情况 下 ， 它 所 拥有 的 IP 地 址 的 数量 
与 其 所 属 的 网 络 的 数量 一 致 * 。 类 似 地 ， 作 为 连接 网 络 角 色 的 路 由 器 ， 具 有 与 其 互 连 的 网 络 一 样 多 的 不 
同 的 IP 地 址 。 

实际 上 ，RFC 791 其 至 允许 仅 与 一 个 网 络 连接 的 主机 也 可 以 拥有 多 个 P 地 址 :“ 单 个 物理 主机 必须 
能 够 像 使 用 多 个 不 同 的 互联 网 地 址 ， 能 够 像 多 个 不 同 的 主机 一 样 运行 "。 相 反 ， 使 用 任 播 (anycast) 寻 
址 (这 在 RFC 791 时 代 甚 至 无 法 被 人 们 所 想像 ， 但 是 之 后 将 会 遇 到 ) ， 为 了 达到 负载 均衡 的 目的 ， 将 共 
同 的 IP 地 址 分 配给 提供 相同 服务 的 多 个 主机 。 

回 到 IP 地 址 的 逻辑 结构 上 来 。 通 过 最 初 的 设计 ， 网 络 地 址 类 (Class) 标签 分 为 3 种 : A, BAC 
X., HIE, RFC 791 规定 : 
“有 3 种 格式 或 3 类 互联 网 地 址 : 在 A 类 中 ， 最 高 位 比特 为 0， 接 下 来 的 7 位 是 网 络 地 址 ， 后 面 的 24 位 
是 本 地 地 址 ; 在 B 类 中 ， 高 位 的 前 两 位 比特 为 10 ， 接 下 来 的 14 位 是 网 络 地 址 ， 后 面 的 16 位 是 本 地 地 
址 ; 在 C 类 中 ， 高 位 的 前 三 位 比特 为 110， 接 下 来 的 21 位 是 网 络 地 址 ， 后 面 的 8 位 是 本 地 地 址 。 

首先 ， 观 察 到 类 标签 已 经 被 放置 在 地 址 的 开头 。 卫 字符 串 的 解析 将 从 地 址 类 的 确定 开始 。 如 果 IP 
地 址 最 左边 的 比特 位 是 0， 则 该 地 址 类 为 A; 如 果 开 始 的 前 两 位 为 10， 则 为 B 类 ; 如 果 前 三 位 是 110， 
则 为 C 类 。 这 种 编码 方案 的 惯例 是 易于 扩展 的 〈 例 如 ， 以 后 的 D 类 可 以 使 用 1110 标签 ， 被 定义 为 
组 播 地 址 ” ) 。 

其 次 ， 基 于 地 址 类 的 方案 思想 是 拥有 很 多 小 型 (CA) 网 络 ， 更 少 的 B 类 网 络 (拥有 更 多 的 主 
机 ) ， 以 及 只 有 128 个 巨大 的 A 类 网 络 。 在 当时 ， 这 种 想法 是 合理 的 。 图 4. 10 描述 了 1982 年 由 Jon Pos- 
tel 创建 的 互联 网 图 谱 ”。 

然而 ， 大 约 10 年 后 ，IETF 发 现 了 3 个 主要 的 问题 ,虽然 都 是 意 想不到 的 和 前 所 未 有 的 ， 但 却 是 伴 
随 着 互联 网 的 发 展 而 产生 的 。 第 一 ， 中 等 大 小 的 B 类 网 络 的 地 址 空间 正在 枯 竟 。 第 二 ， 路 由 表 变 得 太 
大 ， 路 由 器 难以 维护 ， 而 且 这 种 情况 越 来 越 糟糕 。 第 三 ， 整 个 IP 地 址 空间 正在 耗 尽 。 

最 后 一 个 问题 从 本 质 上 来 说 ， 不 是 在 IPv4 的 设计 上 能 够 被 解决 的 ， 但 是 前 两 个 问题 可 以 通过 去 除 
类 的 概念 来 解决 。 因 此 ， 无 类 域 间 路 由 (Classless Inter - Domain Routing, CIDR) 方案 首次 作为 一 个 过 
渡 解 决 方案 (直到 IPv6 接管 ) MH, 之 后 (因为 IPv6 尚未 接管 ) 作为 一 种 不 同 程度 的 永久 性 解决 方 
案 。 在 连续 发 布 3 个 RFC 之 后 ，2006 年 在 RFC 4632 中 它 作 为 IETF 当前 最 佳 实践 得 以 发 布 。 

CIDR 摆脱 了 类 标签 ， 用 一 个 特定 的 “网 络 掩 码 ”来 代 蔡 它 ， 网 络 掩 码 描 述 了 一 种 前 级 ， 即 地 址 的 
网 络 部 分 的 确切 位 数 。 因 此 ， 前 级 的 分 配 是 “ 则 在 遵循 底层 的 互联 网 拓扑 ， 以 便 可 以 使 用 聚合 来 促进 
全 局 路 由 系统 的 扩展 ”。CIDR 聚合 的 概念 如 图 4. 11 Ata. 

由 其 前 级 标识 的 网 络 A 聚合 了 它 的 子 网 ( 网 络 B 和 网 络 C) 的 地 址 空间 ， 网 络 B 和 网 络 C 的 前 级 
分 别 是 xO 和 xl1。 因 此 ， 要 想到 达 子 网 中 的 主机 ， 路 由 玫 只 需要 找到 最 长 匹配 的 前 级 即 可 。 

到 2006 年 ， 互 联网 提供 商业 务 得 到 了 充分 的 巩固 ， 因 此 分 配 前 缀 是 有 意义 的 。 所 以 , “前 缀 分 配 
和 聚合 通常 根据 提供 商 - 客户 的 关系 来 完成 ， 因 为 这 是 互联 网 拓扑 结构 的 确定 方式 。” 当 然 ， 该 策略 能 
够 后 问 兼 容 基 于 类 的 系统 ， 而 且 很 快 就 会 看 到 ， 这 也 正 是 寻 址 的 工作 原理 。 

前 级 由 下 地 址 的 网 络 部 分 中 的 位 数 指 定 。 掩 码 以 及 “/ ”字符 被 附加 到 IP 地 址 上 。 在 这 一 点 上 ， 
有 必要 将 其 在 下 地址 上 体现 出 来 。 尽 管 下 地 址 的 语义 是 一 对 整数 ， 卫 地 址 传统 上 是 按照 逐个 字 节 以 点 


O ”该 网 络 (如今 ， 它 是 一 个 LAN) 为 主机 提供 了 唯一 的 第 二 层 地 址 ， 该 地 址 被 硬 编码 在 NIC 的 硬件 中 。 第 3 章 介绍 了 与 
NIST 安全 要 求 相关 的 首 字 母 缩 略 词 ， 在 描述 设备 模拟 时 就 用 了 这 一 概念 。 为 此 ， 在 XEN 中 对 NIC 进行 了 模拟 ， 因 为 所 
有 VM 设备 流量 都 是 通过 “路 由 ”到 dom 0 的 。 

© Æ RFC 5771。 

© Jon Postel 除了 对 互联 网 发 展 的 许多 服务 外 ， 还 管理 着 互联 网 数字 分 配 机 构 (Internet Assigned Numbers Authority, IANA), 
直到 他 于 1998 年 逝世 。 
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分 十 进 制 的 格式 拼写 的 ， 如 171. 16. 23. 42。 掩 码 的 拼写 方式 与 其 相同 。 考 虑 上 述 地 址 FBX), € 
的 网 络 掩 码 是 255. 255. 0.0， 因 此 以 前 级 符号 表示 的 完整 地 址 为 171. 16. 23.42/16。 类 似 地 ，C 类 地 址 
192. 16. 99. 17 的 掩 码 为 255. 255. 255.0， 可 将 其 指定 为 192. 16. 99. 17/24, 

图 4. 12 演示 了 如 何 将 一 个 现 有 的 B 类 地 址 在 内 部 分 解 成 4 个 子 网 。 

在 这 一 点 上 ， 我 们 必须 认识 到 ， 通 过 快速 发 展 的 20 年 ,我 们 已 经 偏离 了 RFC 791 中 规范 的 内 容 。 
现在 回 到 图 4. 9 FER IP 首部 字段 内 容 的 讨论 上 。 

第 一 个 字段 是 版 本 ， 它 定义 了 其 余 的 首部 结构 。 似 乎 这 是 卫 首部 实际 资源 中 最 浪费 的 字段 。 分 配 
了 4 个 比特 位 来 指示 协议 的 版 本 ; 这 在 实验 中 是 有 一 定 的 帮助 意义 的 ， 并 且 这 些 年 来 ， 只 有 两 个 协议 
版 本 一 一 IPv4 和 IPv6。 然 而 ，IP 被 设计 成 可 以 被 人 们 永远 使 用 ， 因 此 预计 每 30 年 左右 ,会 有 一 对 新 版 
本 的 全 被 人 们 广泛 使 用 是 有 道理 的 。 

首部 长 度 (Internet Header Length, IHL) FR, 顾名思义 : 网 际 协议 首部 长 度 ， 以 32 位 字 为 单位 。 
实际 上 ， 这 是 指向 IP 有 效 载荷 开头 的 指针 。 ` 
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服务 类 型 字段 被 设计 为 用 来 指定 服务 质量 参数 。 
有 趣 的 是 ， 尽 管 在 这 个 (1981 年 的 ) 规范 中 明确 列 
出 的 应 用 是 telnet 和 FTP， 但 分 组 优先 级 已 经 被 人 们 
所 考虑 ， 并 且 正 如 一 些 文档 报告 中 所 提 到 的 ， 在 某 些 
网 络 中 已 经 对 分 组 优先 级 进行 了 实现 。 当 时 ， 主 要 的 
选择 是 在 低 延 时 、 高 可 靠 性 和 高 硅 吐 量 之 间 的 三 重 权 
衡 。 然 而 ， 稍 后 这 些 比 特 位 将 被 重新 解释 用 于 不 同 的 
服务 ; 将 在 下 一 节 中 对 这 些 新 的 解释 进行 讨论 。 

总 长 度 字段 指定 了 分 组 的 长 度 ， 以 字 节 为 单位 
(首部 长 度 也 被 计算 在 内 )。 尽 管 该 字段 的 长 度 为 16 
位 比特 长 度 , 但 是 只 有 在 确保 目的 主机 准备 接受 的 情 
况 下 ， 才 推荐 主机 发 送 长 度 超 过 576 字 节 的 分 组 。 在 
撰写 本 书 (英文 原版 ) 时 ， 最 大 分 组 大 小 ， 即 65535 
字 节 长 度 已 被 认为 是 受 限 的 , 但 在 1981 年 长 分 组 的 
传输 可 以 通过 分 片 来 实现 。 为 此 ， 接 下 来 的 三 个 字段 
用 来 处 理 分 片 事 宜 。 

ac 图 4.11 CREA . 
装 ( 人们 已 经 尝试 对 它 进行 重新 定义 )。 标 志 字 段 
(第 一 位 仍 被 人 们 保留 ， 未 进行 使 用 ) 包含 1 位 的 DF Al MF 字段 ,分 别 代表 不 分 片 和 更 多 分 片 。 其 中 ， 
前 者 指示 路 由 器 丢弃 分 组 (并 报告 错误 ) ， 而 不 是 对 其 进行 分 片 ; 后 者 表示 后 面 跟着 更 多 的 分 片 。 片 偏 
移 字 段 是 指 癌 当 前 分 片 在 原始 有 效 载荷 中 位 置 的 指针 ( 因此， 第 一 个 分 片 的 偏 移 值 为 0)。 需 要 注意 的 
是 ，IPv6 完全 取消 了 分 片 。 取 而 代 之 的 是 ， 需要 在 接收 分 组 的 路 径 上 发 送 分 组 。 





P A E T a 图 4.12 将 一 个 B 类 网 络 “ 子 网 化 ” 

生存 时 间 (Time -To -Live, TTL) 字段 ， 用 于 防止 分 组 在 网 络 中 传输 的 无 限 人 循环 问题 因为 最 初 
的 互联 网 没有 设想 回路 ， 互 联网 路 由 天 在 回 分 组 目的 地 址 转发 分 组 时 ， 采 用 “尽力 而 为 ”的 做 法 。 路 
由 协议 让 路 由 右 对 网 络 中 的 变化 做 出 反应 并 更 改 路 由 表 , 但 是 这 种 更 改 的 传播 可 能 很 慢 。 因 此 ， 分 组 
可 能 陷入 循环 。TTL 的 值 用 于 决定 一 个 分 组 是 否 处 于 “流浪 ”状态 的 。 该 字段 是 “可 变 的 "， 因 为 它 的 
取 值 会 被 每 一 个 路 由 絮 所 更 新 。 最 初 ， 该 字段 被 设置 为 分 组 可 在 网 络 中 传播 时 间 的 上 限 ， 并 且 每 个 路 
由 句 均 应 当 修 改 该 字段 的 值 ， 将 其 值 减 去 路 由 带 处 理 该 分 组 所 需 消 耗 的 时 间 。 一 旦 该 值 达到 0 时 ,该 
分 组 应 当 被 丢弃 。 目 前 ， 这 一 字段 的 语义 略 有 变化 : 以 跳 数 来 衡量 ， 而 不 是 以 秒 来 衡量 ( 因为 以 秒 来 
衡量 的 方式 难以 处 理 和 实现 ) 。 
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协议 字段 指定 了 采用 的 传输 层 协议 。 回 到 在 本 章 开 头 讨 论 的 计算 模型 ， 有 必要 在 主机 接收 分 组 时 
确定 需要 调用 哪个 过 程 /程序 〈 或 是 哪个 进程 去 发 生 这 一 分 组 ) 。 

首部 校 验 和 在 每 一 个 路 由 历 上 计算 ， 通 过 使 用 1 的 补 码 加 法 将 首部 的 所 有 16 比特 字 相 加 (大 部 分 
情况 下 该 操作 是 在 这 些 分 组 到 达 时 进行 的 ) ， 并 对 相 加 和 取 !1 的 补 码 进行 计算 。 当 分 组 到 达 时 ， 如 果 没 
有 错误 发 生 ， 则 在 整个 首部 上 计算 的 校 验 和 必须 等 于 0， 因 为 首部 已 经 包含 了 之 前 计算 的 校 验 和 。 如 果 
结果 值 不 为 0， 则 丢弃 该 分 组 (需要 注意 的 是 ， 网 络 层 只 检查 首部 ， 而 有 效 载 荷 的 验证 则 是 上 层 的 工 
作 ) 。 如 果 路 由 器 需要 转发 分 组 ， 则 在 改变 TTL 值 之 后 ， 重 新 计算 校 验 和 。 

在 自 部 中 ， 源 地 址 和 目的 地 址 位 于 可 选 字 段 之 前 。 其 中 ， 可 选 字段 是 可 选 的 。 最 近 还 没有 使 用 它 
(过 去 ， 可 选 字 段 的 一 个 典型 的 用 途 是 明确 列 出 需要 通过 的 路 由 )。 最 后 ,将 分 组 填充 足够 位 数 的 比特 ， 
使 其 长 度 始终 保持 为 32 比特 的 整数 倍 界限 〈 以 防 可 选 字 段 没 有 以 完整 的 32 位 字 结 尾 ) 。 

以 上 对 IPv4 首部 结构 进行 了 简要 的 概述 。 现 在 ， 应 当 清 楚 IPv4 如 何 解 决 网 络 互 连 的 原始 问题 了 。 
在 这 个 过 程 中 ， 也 提 到 了 几 个 新 的 问题 ， 其 中 包括 IP 地 址 空间 的 耗 尽 。 我 们 没有 讨论 安全 性 问题 ， 这 
是 一 个 重大 的 问题 ,需要 单独 的 一 章 (来 提供 并 满足 所 有 的 先决 条 件 ) 进行 论述 。 还 有 一 个 大 问题 是 
对 所 谓 的 “服务 质量 ”没有 明确 的 支持 。 这 将 在 4.3 节 中 详细 讨论 ; 然而 ， 现 在 提 到 它 ， 因 为 下 一 步 
要 解决 的 IPv6 已 经 提供 对 IPv4 的 改进 。 

(基本 的 ) IPw 首部 结构 如 图 4. 13 所 示 。 


有 效 载 荷 长 度 跳 数 限制 
源 地 址 


(128 位 ) 





粗略 浏览 IPv6 的 首部 之 后 ， 或 许 最 引 人 注 目的 是 ， Cay ROLF Le Pe REALE. 它 确实 是 ! 一 
些 字 段 已 经 被 取消 了 ， 或 将 其 作为 可 选 字 段 ， 这 使 得 它 不 仅 更 容易 理解 ， 而 且 能 够 更 快 地 执行 。IPv6 
的 首部 是 可 扩展 的 ， 因 为 新 的 首部 (可 以 单独 定义 ， 从 而 提高 模块 化 能 力 ) 可 以 通过 下 一 个 首部 字段 
的 方式 在 分 组 中 链接 在 一 起 。 因 此 ， 在 IPv6 首部 的 定义 中 存在 “基本 的 ”一 词 。 

当然 ， 主 要 的 变化 是 将 IP 地 址 的 大 小 提高 为 原来 的 4 倍 ， 从 32 位 提高 到 128 位 。 除 了 更 多 的 可 寻 
址 空间 的 明显 好 处 之 外 ， 这 还 可 以 支持 寻 址 的 层次 结构 。IPv6 通过 支持 组 播 地 址 范围 的 定义 ,来 提高 
组 播 路 由 的 可 扩展 性 。IPv6 还 正式 定义 了 任 播 地 址 的 概念 。 

IPv4 生存 时 间 (TTL) 字段 被 重 命名 为 跳 数 限制 ， 服务 类 型 字段 被 重 命 名 为 流量 等 级 。 其 中 ， 

I ee i gg 量 ， 新 的 名 为 流标 签 的 字段 也 是 如 此 。 接 下 来 将 再 次 回 到 这 个 问题 上 来 ， 

行 详细 的 介绍 。 但 现在 值得 一 提 的 是 ， 该 字段 支持 的 功能 实际 上 等 同 于 提供 虚 电 路 的 作用 。 

定义 基本 IPv6 首部 的 REC 2460 将 流标 签 的 功能 描述 如 下 :“ 一 项 新 添加 的 功能 ， 可 以 为 发 送 者 请 
求 特殊 处 理 的 、 属 于 特定 业务 “ 流 ” 的 分 组 标 上 标签 ， 例 如 非 默 认 的 服务 质量 或 “实时 服务 '"”。 增 加 
这 项 功能 的 主要 原因 是 为 了 纠正 IPv4 解决 方案 中 存在 的 韦 韦 背 分 层 规则 的 问题 ， 稍 后 将 回顾 这 一 问题 。 
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EA IPv6 首部 规范 的 内 容 (基本 首部 之 外 的 内 容 ) 请 参阅 RFC 2460- 。 最 后 一 点 ， 尽 管 IPv6 尚未 完全 
部 署 ,但 IPv6 网 络 以 及 支持 IPv6 的 设备 已 经 出 现 。IPv6 网 络 可 以 以 隧道 的 方法 通过 IPv4 实现 互 连 。 毕 
竟 ， 开 发 正 的 主要 目标 是 互联 网 络 。 

到 目前 为 止 ， 只 是 简单 地 提 到 路 由 协议 ， 其 工作 是 计算 路 由 映射 。 如 图 4. 14 所 示 。 首 先 ，LAN 中 
不 需要 路 由 ， 即 使 每 个 主机 使 用 卫 (LAN 可 以 通过 第 1 层 和 第 2 层 交 换 机 做 进一步 互 连 ， 构 建 更 大 的 
称 为 城 域 网 的 LAN) 。 还 可 以 使 用 电路 交换 技术 (例如 ， 租 用 电话 线路 ) 或 虚拟 电路 交换 技术 [例如 ， 
帧 中 继 或 异步 传输 模式 (Asynchronous Transfer Mode, ATM) 技术 ,或 者 多 协议 标签 交换 (Multi - Pro- 
tocol Label Switching，MPLS) ， 稍 后 将 讨论 ] 将 它们 组 织 成 广域网 。 然 而 ， 路 由 器 加 入 时 ， 它 们 需要 了 
解 网 络 中 的 其 他 路 由 研 。 


a) LAN 不 需要 路 由 


b) 自治 域 中 和 自治 域 之 间 的 路 由 

a | [EL a) See E a 

问题 是 :“ 路 由 到 哪 一 个 网 络 ?” 当然， 没有 路 由 器 可 以 容纳 整个 互联 网 的 路 由 映射 。 仅 使 用 少量 
路 由 器 的 小 型 网 络 可 以 在 其 中 提供 静态 路 由 映射 。 较 大 网 络 中 的 路 由 器 需要 实现 这 样 或 那样 的 路 由 网 
关 协 议 。 本 书 内 容 有 限 ， 无 法 对 这 些 内 容 做 进一步 的 论述 。 然 而 ， 自 治 域 (Autonomous Systems, AS) 
之 间 的 外 部 路 由 的 情况 对 于 云 计算 尤其 重要 ， 因 为 它 涉 及 提供 “数据 管道 ”服务 。 这 里 的 想法 类 似 于 
地 理 地 图 的 开发 : 一 幅 国 家 地 图 ， 显 示 连 接 城 市 (外 部 路 由 ) 间 的 高 速 公路 ， 还 有 一 类 地 图 显示 城市 
中 的 街道 (内 部 路 由 )。 

如 图 4. 15 所 示 ， 每 个 AS 由 其 各 自 的 区 域 互联 网 注册 机 构 ( Regional Internet Registries，RIR) 分 配 
一 个 称 为 自治 域 号 (Autonomous System Number, ASN) 的 号 码 。 对 于 世界 其 他 地 方 ，As 由 称 为 边界 网 
关 的 路 由 器 表 示 ， 交 换 由 边界 网 关 协 议 (Border Gateway Protocol, BGP) 定义 。BGP (当前 版 本 号 为 4) 
在 RFC 1771 中 规定 。 


O TRH IPvw6 必须 包括 /支持 以 下 首部 : 逐 跳 选项 、 路 由 (类 型 0) 、 分 片 、 目 的 地 选项 、 认 证 和 封装 安全 有 效 载荷 (En- 
capsulating Security Payload, ESP) 。 

O 这 里 推荐 读者 参阅 本 章 参 考 文献 [1]。 

© RIR 为 不 同 的 地 理 位 置 分 配 了 IANA 颁发 的 块 。RIR 将 其 管辖 的 范围 按照 字母 顺序 排列 如 下 : 非洲 网 络 信息 中 心 ( Afri- 
can Network Information Centre, AfriNIC) (非洲 ) 、 美 国 互 联网 号 码 注 册 机 构 ( American Registry for Internet Numbers, 
ARIN) [美国 、 加 拿 大 和 部 分 加 勒 比 海地 区 (不 包括 LACNIC 涵盖 的 地 区 ) 和 南极 洲 ] 、 亚 太 网 络 信息 中 心 (Asia - Pa- 
cific Network Information Centre, APNIC) (亚太 地 区 、 澳 大 利 亚 、- 新 西 兰 和 该 地 区 的 岛屿 )、 拉 丁 美洲 和 加 勒 比 网 络 信息 
中 心 (Latin America and Caribbean Network Information Centre, LACNIC) (拉丁 美洲 和 部 分 加 勒 比 海地 区 ) 以 及 欧洲 网 络 
资源 协调 中 心 (Réseaux IP Européens Network Coordination Centre, RIPE NCC) 。 
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由 区 域 互 联网 注册 机 构 分 配 


a 1 ~ 





过 去 , 一 “自治 域 意味 着 一 MEPETI ( Internet Service EET ISP). ere 
时 间 的 推移 ， RE 现在 ，ISP 可 以 有 几 个 单独 的 AS 在 里 面 。 根 据 RFC 1930“ 自 治 
域 的 经 典 定 义 是 在 单个 技术 管理 下 的 一 ALBEE TE a 使 用 内 部 网 关 协 议和 共用 的 标准 在 AS 中 路 由 分 组 ， 
并 使 用 外 部 网 关 协 议 将 分 组 路 由 到 其 他 AS。 

单个 技术 管理 下 的 网 络 已 经 增长 ， pee gg Hn loyal am 只 要 满足 两 个 
条 件 ， 同 样 的 质量 就 仍然 存在 : 山 对 其 他 网 络 来 说 ， 此 类 网 络 看 似 只 有 一 个 一 致 的 内 部 路 由 计划 ; 
G@) 通 过 这 种 一 致 的 内 部 路 由 计划 ， 可 以 识别 哪些 网 络 是 可 达 的 。 后 一 ja Pel ee ty 因为 不 是 每 
个 网 络 都 可 以 允许 来 和 目 所 有 其 他 网 络 的 流量 流 经 它 ， 相 反 ， 给 定 的 网 络 可 能 不 希望 其 流量 通过 某 些 网 
络 。 稍 后 ， 将 回 到 这 部 分 的 内 容 上 来 。 

考虑 到 这 些 变 化 ，RFC 1930 将 AS 重新 定义 为 “由 一 个 或 多 个 网 络 运 营 商 运行 的 一 个 或 多 个 全 前 
级 的 连接 组 ”。 因 此 ,该 组 必须 有 “一 个 单一 旦 明确 定义 的 路 由 策略 ”。 这 里 的 “策略 ”是 关键 ,反映 
了 内 部 和 外 部 路 由 目标 之 间 的 主要 区 别 。 在 内 部 路 由 中 ， 目 标 是 计算 网 络 的 完整 映射 ， 同 时 确定 到 每 
个 网 元 的 最 有 效 的 路 由 。 

因此 ， 当 两 个 内 部 路 由 器 连接 时 ， 它 们 交换 关于 它们 知道 的 所 有 可 达 节 点 的 信息 (然后 ， 基 于 该 
信息 ， 每 个 路 由 器 重新 计算 自己 的 网 络 映射 ) ; 相反 ， 当 路 由 器 丢失 连接 时 ， 它 会 重新 计算 它 的 映射 并 
将 更 改 通告 给 它 其 余 的 邻居 。 在 这 两 种 情况 下 ， 接 收 新 信息 的 路 由 器 会 计算 各 自 的 映射 ， 并 将 信息 传 
播 给 它们 余下 的 邻居 ， 等 等 。 

外 部 路 由 不 是 这 样 ， 它 们 会 根据 策略 和 协议 来 决定 传播 哪些 信息 。 回 到 图 4.15。 图 中 ， 自 治 域 B 
知道 如 何 到 达 自 治 域 A、C、D 和 下 。 既 没 必要 、 也 不 期 望 B 自动 地 将 其 知道 的 所 有 的 网 络 信息 通告 给 
C, fila, A TEB m E A Cia: 

1) 下 的 策略 不 得 将 C 从 它 的 中 转 目 的 地 排除 。 

2) B 必须 同意 路 由 从 到 C 的 流量 。 

C 必须 同意 接收 来 自 上 的 流量 。 
E 必须 同意 接收 来 自 C 的 流量 (有 对 称 性 )。 

事实 上 ，AS 之 间 的 关系 分 类 法 ， 如 图 4. 16 所 示 。 

这 里 ， 开 始 进 入 业务 领域 的 内 容 。 应 该 注意 到 互联 网 是 不 受 管制 的 ， 并 且 在 很 大 程度 上 是 自 组 织 
的 。 它 已 经 并 正在 由 业务 来 塑造 。 与 普遍 观点 相反 ， 互 联网 从 来 都 不 是 免费 的 。 在 早 些 时 候 ， 它 主要 
由 美国 政府 支付 费用 ， 这 恰好 解释 了 图 4. 10 的 平面 结构 。 自 从 那 时 以 后 ， 很 多 情况 已 经 发 生 了 改变 。 

在 商业 链 的 底部 ，ISP 客户 向 他 们 各 自 的 JSP 支付 互联 网 连接 的 费用 。 


o 
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较 小 的 ISP 通过 为 中 转 关 系 文 付费 用 来 实现 
互联 和 互通， 在 这 种 中 转 关 系 中 ,结合 了 两 种 服 
务 : 中 将 路 由 通告 给 其 他 人 (这 具有 加 ISP 客户 
征询 流量 或 业务 的 效果 ); @ 了 解 其 他 ISP 的 路 
由 ， 以 便 向 它们 传递 来 自 ISP 客户 的 流量 。 流 量 
在 上 游 计 费 ， 也 就 是 说 ， 中 转 网 络 对 其 接收 的 流 
量 进行 计 费 ， 并 为 离开 它 的 流量 支付 费用 。 

在 对 等 体系 中 ， 只 能 交换 网 络 与 其 下 游客 户 
之 间 的 流量 ， 并 且 两 个 网 络 都 不 能 在 对 等 连接 上 
看 到 上 游 路 由 。 一 些 网 络 是 中 转 免 费 的 ， 并 且 依 
赖 于 对 等 连接 。 

最 初 ,“ 对 等 ”一 词 意味 着 有 关 双 方 不 需要 
向 彼此 支付 任何 费用 ， 这 是 与 中 转 关 系 不 同 的 主 
要 区 别 。 后 来 ， 这 个 术语 受到 影响 ， 在 对 等 连接 
中 出 现 了 一 个 结算 的 概念 。Geoff Huston |[ 在 澳 | 
洲 电 信 (Telstra) 时 ] 有 一 篇 文章 " ， 描 述 了 ”图 4.16 中 转 和 ( 免 结算 ) 对 等 关系 
其 中 的 细微 业务 差别 ” 。 

最 终 ， 最 初 的 对 等 概念 已 经 由 “ 免 结 算 ” 一 词 重 新 设 定 。 通 过 由 一 级 (Tier -1) 网 络 构成 免 结算 
对 等 方式 ， 大 型 的 服务 提供 商 可 以 实现 完全 的 互联 网 访问 。 

两 个 网 络 可 以 通过 专用 交换 机 进行 互 连 , 但 是 当 一 个 地 区 有 两 个 以 上 的 服务 提供 商 时 ， 通 过 独立 
运行 的 互联 网 交换 点 (Internet Exchange Point, IXP) 互 连 对 等 网 络 更 具有 有 效 性 。 在 撰写 本 书 (英文 
原版 ) 时, 已 经 有 超过 300 个 IXP, 

看 一 下 一 级 网 络 提 供 商 的 具体 策略 ， 会 对 理解 这 方面 的 内 容 更 有 启发 式 的 帮助 。 

AT&T 已 经 发 布 了 相应 的 文件 ， 称 为 “AT&T EER IP 网 络 免 结算 对 等 策略 ”。 这 份 文 件 (看 的 是 
2012 年 10 月 的 官方 版 本 ) 首次 列 出 了 公司 的 目标 “在 免 结算 的 基础 上 将 其 IP 网 络 与 其 他 互联 网 骨干 
提供 商 互 连 起 来 ， 这 样 的 互 连 可 以 为 AT&T 及 其 客户 市 来 切实 的 好 处 。” 之 后 ， 它 提供 了 相关 的 ASN: 
AS7018 ， 用 于 在 美国 的 专用 对 等 ; AS2685， 用 在 加 拿 大 ， 以 及 AS2686 ， 用 在 拉丁 美洲 。ISP 的 对 等 请 
求 必 须 以 书面 的 形式 提交 ， 其 中 提供 ISP 服务 国家 的 信息 ， 包 括 已 有 的 IXP、 服 务 的 ASN 和 前 缀 集 以 及 
流量 描述 。 

AS7018 规定 了 对 等 (在 美国 ) 的 具体 要 求 。 首 先 ， 对 等 运营 商 必须 具有 “美国 范围 的 IP 骨干， 
其 链 路 主要 是 0C192 (10Gbit/s) 或 更 高 ” ， 并 且 在 美国 至 少 有 3 个 点 与 AT&T HE, 一 个 在 东部 海岸 ， 
一 个 在 中 部 地 区 ， 一 个 在 西部 海岸 。 此 外 ， 候 选 对 等 体 必须 用 两 个 “位 于 不 同 大 洲 (这 里 的 对 等 具有 
重要 的 骨干 网 络 ) 的 非 美 国 对 等 ”与 AT&T 互 连 。AS7018 的 客户 可 能 不 是 免 结 算 对 等 体 。 

其 中 对 带宽 和 流量 要 求 给 出 了 明确 说 明 ; “到 /从 AS7018 的 对 等 流量 必须 按 净 计算 ， 在 美国 到 /从 
AT&T 的 主导 方 问 在 每 月 的 繁忙 时 段 必须 达到 平均 至 少 7Gbit/s”。 因 此 ,， “在 每 个 美国 的 互 连 点 上 , H. 
连带 宽 必 须 至 少 为 10Gbit/s”。 进 AT&T/ 出 ATAT 的 流量 比率 被 限制 为 不 超过 2:1。 

对 等 的 好 处 之 一 是 合作 解决 安全 事故 和 其 他 的 运 维 问 题 。 为 此 ， 候 选 对 等 方 预计 将 通过 “专业 管 
理 的 24 x7 [网 络 运营 中 心 ] NOC” 参 与 其 中 合作 ， 并 用 其 来 支撑 参与 这 项 合作 所 需 的 能 力 。 

最 后 ， 必 须 考 虑 路 由 策略 要 求 ， 这 是 我 们 最 感 兴趣 的 ， 因 为 它们 说 明了 外 部 路 由 需要 遵从 的 约束 
和 限制 : 

1) 对 等 方 必 须 在 每 个 互 连 点 公布 一 套 一 致 的 路 由 。 

2) 对 等 方 可 以 不 公布 中 转 或 第 三 方 路 由 ， 只 提供 它 自 己 的 路 由 和 其 客户 的 路 由 。 因 此 ， 必 须 使 用 
前 绥 来 过 滤 对 等 方 客户 的 路 由 。 

3) 禁止 的 活动 包括 “指定 默认 的 路 由 ……: 或 以 其 他 的 方式 转发 未 明确 通告 的 目的 地 的 流量 ， 重 置 


O ”这 篇 文章 发 表 一 年 后 ，2000 年 6 月 ， 文 章 的 作者 参加 了 Geoff 在 互联 网 协会 会 议 上 的 讲话 ， 在 那里 他 审视 了 ISP 业务 的 
财务 结构 并 得 出 结论 ， 认 为 这 是 一 个 面临 危机 的 商品 业务 。 后 来 人 们 将 这 个 危机 称 为 “互联 网 泡沫 的 破裂 ”。 
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下 一 跳 ， 将 下 一 跳出 售 或 赠 耶 其 他 人 ”。 

考虑 到 业务 焦点 和 产生 的 策略 ，BGP 是 用 于 交换 AS 可 达 性 信息 的 协议 。 执 行 BGP 可 以 构建 一 个 
AS 连接 的 有 回 无 环 图 ( 即 无 环 路 ) ， 这 代表 了 所 有 涉及 AS 的 组 合 策略 。 为 了 确保 这 一 点 ，RFC 1771 
BOK “BGP 发 言 者 要 向 相 邻 AS 中 的 对 等 体 通告 其 本 身 所 使 用 的 那些 路 由 ”。 这 就 不 可 避免 地 会 导致 
“ 逐 跳 ”路 由 的 出 现 ， 而 这 在 策略 方面 存在 局 限 性 。 一 个 限制 是 不 能 执行 源 路 由 即 详细 说 明 部 分 或 全 
部 的 路 由 路 径 )。 然 而 ，BGP 确实 支持 所 有 符合 “ 逐 跳 ”范式 的 策略 。 

与 其 他 路 由 协议 不 同 ，BCP 需要 可 靠 的 传输 。 乍 一 看 可 能 很 奇怪 ， 路 由 协议 实际 上 是 一 个 应 用 层 
协议 , 但 BGP 是 。 路 由 是 网 络 层 提供 服务 的 应 用 程序 (类 似 地 ， 网 络 管理 应 用 服务 于 网 络 层 ， 因 为 它 
们 和 其 他 层 是 一 样 的 ) 。 边 界 网 关 不 一 定 需 要 在 链 路 层 互 连 ， 因 此 需要 实现 分 片 、 重 传 、 确 认 和 排序 等 
所 有 可 徘 传输 层 的 功能 。 尺 一 个 要 求 是 传输 协议 支持 优 安全 关闭 ， 确 保 在 连接 关闭 之 前 ， 传 送 所 有 未 
完成 的 数据 。 或 许 不 足 为 奇 的 是 ， 本 章 前 面 介绍 的 TCP 已 经 满足 了 这 些 要求 ， 因 此 BGP 使 用 的 是 TCP 
传输 。 为 此 ，TCP 的 179 端口 被 保留 用 于 BGP 连接 。 

现在 ， 开 始 讨论 传输 协议 ， 并 继续 讨论 IP 套件 中 的 其 他 协议 。 


4.2.2 互联 网 沙漏 «ee 


图 4. 17 的 比喻 出 自 于 Steve Deering ( 当时 是 互联 网 架构 委员 的 成 员 之 一 ) ， 他 于 2001 年 8 月 8 日 在 
伦敦 举行 的 第 51 届 IETF 全 体会 议 上 ， 介 绍 了 网 际 协议 方面 的 进一步 发 展 情况 。 








Telnet, FTP, RPC, 
HTTP, SIP, RTP, RTCP, SMTP, 
Diameter, WebSocket --- 
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~ sg a ~ 
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AAL: ATM 适 配 层 RTCP: 实时 控制 协议 
HTTP: 超 文 本 传输 协议 SDLC: 同步 数据 链 路 控制 
HDLC: 高 级 数据 链 路 控制 SMTP: 简单 邮件 传输 协议 
LLC: 逻辑 链 路 控制 SCTP: 流 控制 传输 协议 
PPP: 点 对 点 协议 SIP: 会 话 初 始 协议 

RPC: 远程 程序 调用 TCP: 传输 控制 协议 

RTP: 实时 协议 UDP: 用 户 数据 报 协 议 





大 到 中 年 测 Deering HERE RE, uAENT Eee. © 经 步 人 了 瓶颈 期 ， 而 这 个 瓶颈 就 是 
中 。 链 路 层 的 协议 很 多 ， 每 一 个 都 对 应 着 相应 的 物理 媒介 pat eels She A 
在 IP 以 上 ， 在 传输 层 ， 特 别 是 应 用 层 。 然 而 ,JP 曾经 是 一 个 协议 ， 也 是 一 个 非常 简单 的 协议 。 互 联网 


〇 ”这 里 需要 注意 的 是 TCP 和 最 初 的 传输 控制 程序 愿景 之 间 的 差异 ， 其 中 当前 的 IP 和 TCP 被 组 合 在 一 起 。 

O 在 1992 年 的 一 次 会 议 上 ， 穿 着 三 件 套 西装 的 Vint Cerf 脱 下 了 他 的 外 套 、 领 带 和 白色 的 衬衫 ， 露 出 了 里 面 的 带 哥 特 式 印 
‘EM TH, BESE E: “一 切 基于 IP”. 5S 年 后 ， 在 与 世 通 公司 (MCI Worldcom) 总 部 的 朗讯 科技 公司 (Lucent 
Technologies) 研究 人 员 的 会 议 上 ，Vint Cerf 穿着 与 5 年 前 那 次 会 议 同样 的 T 恤 ， 向 当时 的 朗讯 CTO Bob Martin 介绍 了 相 
关 的 内 容 。Martin 博士 问 Vint Cerf 是 否 这 件 T 恤 可 以 帮助 他 打 到 出 租车 ，Cerf 博士 答 到 :“ 只 要 司机 关心 的 不 是 他 车 内 的 
aA” 
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的 工作 原理 如 Vint Cerf 所 认为 的 ， 主 要 体现 为 两 点 : IP 基于 一 切 和 一 切 基于 IP”。 

在 本 节 的 其 余部 分 中 ， 将 简要 介绍 部 分 网 际 协议 族 的 内 容 ， 仅 仅 是 为 了 开放 视野 。 接 下 来 将 重新 
回 到 这 些 协 议 ， 并 在 本 书后 面 更 为 详细 地 讨论 这 些 协议 。 

物理 媒介 涉及 有 线 和 无 线 LAN、 同 轴 电 缆 和 光纤 链 路 ， 以 及 长 距离 无 线 广播 与 卫星 通信 。 在 诸如 
双 绞 线 的 点 对 点 线路 上 ， 有 IETF 的 点 对 点 (Point -to - Point, PPP) 协议 和 ISO 的 高 级 数据 链 路 控制 
(High - Level Data Link Control, HDLC) 协议 。 在 IBM 系统 网 络 架 构 (Systems Network Architecture, 
SNA) ABBA, A— TS OK Se Fe YS — Jee Db WE E A Be HEB PE hill, (Synchronous Data Link Control, 
SDLC) 协议 一 一 HDLC 以 及 几乎 所 有 其 他 数据 链 路 控制 协议 的 前 身 。LAN 总 是 采用 IEEE 标准 的 逻辑 链 
路 控制 (Logical Link Control, LLC) 协议 族 ， 它 们 也 携带 了 SDLS 的 基因 。 

ATM 网 络 是 一 个 特例 。 正 如 在 本 章 前 面 提 到 的 ，ATM 网 络 被 定位 为 第 3 层 网 络 。2001 Æ, RE IP 
几乎 记得 了 这 场 争斗 ， 但 ATM 交换 机 是 IP 路 由 器 对 等 体 的 概念 ， 仍 然 被 部 分 行业 所 接受 和 分 享 。 因 
此 ， 有 了 Deering 博士 对 网 络 层 发 展 瓶 颈 的 抱怨 。 在 一 个 戏剧 性 的 发 展 中 ，ATM 最 终 被 归 入 到 链 路 层 ， 
就 IP 而 言 : ATM 适 配 层 (ATM Adaptation Layer, AAL) 协议 在 沙漏 模型 中 被 视 为 第 2 层 协 议 。 卫 基于 
一 切 ! 

为 此 ， 卫 也 可 以 在 了 下 上 和 运行。 将 卫 分 组 封 厂 到 另 一 个 卫 分 组 〈 换 句 话 说， 通过 附加 新 的 卫 首 
部 ， 让 一 个 分 组 成 为 男 一 个 分 组 的 有 效 载 荷 ) 的 技术 是 完全 合法 的 ， 并 且 已 经 被 有 效 地 用 于 创建 一 
种 虚拟 专用 网 络 。Deering 博士 亲切 地 将 IP 的 这 个 属性 比喻 成 腰部 ， 并 在 他 的 演示 文稿 中 将 该 沙漏 的 腰 
部 描述 成 扭曲 的 螺旋 形 。 

在 传输 层 有 3 种 协议 ， 全 部 由 ETF 制定 。 除 TCP 之 外 ， 它 有 效 地 组 合 了 会 话 层 和 传输 层 业 务 ， 保 
证 了 端 到 端 顺 序 、 无 错误 的 字 节 流传 输 ， 以 及 检测 网 络 拥塞 的 特殊 机 制 (并 通过 指数 方式 降低 发 送 的 
数据 量 来 对 其 进行 调整 ) ， 还 有 另外 两 种 协议 : 用 户 数据 报 协议 (User Datagram Protocol, UDP) 和 流 控 
制 传输 协议 (Stream Control Transmission Protocol, SCTP) 。 

RFC 768 中 规定 的 UDP 是 无 连接 协议 ,不 提供 任何 传送 保证 。UDP 也 不 需要 任何 连接 建立 。UDP 
在 实现 由 应 用 层 执 行 差 错 控制 的 快速 事务 中 是 不 可 缺少 的 。 男 一 个 UDP 的 核心 功能 是 传输 “ 流 媒体 ” 
( 即 语音 或 视频 分 组 )。 在 这 方面 ，UDP 更 有 优势 ， 因 为 偶尔 丢失 的 视频 帧 对 视频 服务 的 感知 影响 不 大 ， 
而 通过 重 传 “挽救 ”出 错 的 帧 则 相对 会 造成 较 多 的 不 利 影响 〈 这 会 导致 延迟 方面 的 显著 变化 ) 。 

后 面 将 对 SCTP 进行 详细 的 介绍 ， 因 为 稍 后 需要 用 到 它 。 需 要 和 弄 清 楚 的 是 ,为 什么 互联 网 会 出 现 两 
种 不 同 的 可 靠 传输 层 协议 。 首 先 ，SCTP 是 作为 本 章 参 考 文献 [3] 描述 的 IETF Intemet/PSTN 互通 项 目 
的 一 部 分 而 制定 的 。SCTP 的 初始 目标 是 通过 互联 网 传输 7 号 信 令 系统 消息 ， 所 以 这 项 工作 属于 IETF 
SIGTRAN 工作 组 。 后 来 ， 一 些 与 电话 无 关 的 应 用 协议 规定 SCTP 作为 选择 的 传输 机 制 ， 主 要 是 因为 其 内 
在 的 可 徘 性 。 该 协议 在 RFC 4960 中 定义 ,并且 通常 情况 下 ， 还 有 一 些 其 他 相关 的 RFC 也 对 其 给 出 了 相 
关 的 规范 。 

与 TCP 一样 ，SCTP 可 以 提供 无 差错 的 、 不 重复 的 有 效 载 傈 传输 ， 采 用 数据 分 片 和 网 络 拥 塞 避 免 机 
制 。SCTP 还 解决 了 以 下 TCP 中 存在 的 限制 : 

1) TCP 将 可 徘 传输 与 顺序 传送 结合 在 一 起 ,但 是 在 20 世纪 末 ， 人 们 需要 将 这 两 个 功能 分 离开 ， 
而 SCTP 允许 应 用 程序 从 这 两 个 功能 中 选择 一 个 或 两 个 都 选择 。 

2) TCP 将 有 效 载 集 视 为 字 厄 流 。 这 迫使 应 用 程序 使 用 推送 工具 ， 在 应 用 程序 定义 的 记录 结束 时 强 
制 发 送 消 息 。 相 反 ，SCTP 只 处 理 “ 数 据 块 "， 并 且 它 们 是 一 次 传输 的 (SCTP 提供 了 捆绑 块 的 选项 ) 。 

3) TCP 在 多 宿主 ( 即 主机 被 连接 到 多 个 网 络 上 ) 方面 是 无 效 的 ， 而 SCTP 明确 支持 这 一 功能 ， 对 
于 此 稍 后 将 予以 展示 。 

4) TCP 一 直 存 在 容易 受到 同步 拒绝 服务 攻击 的 漏洞 。 而 SCTP 通过 在 一 种 特殊 的 数据 结构 ( cook- 
ie) 中 维护 初始 化 状态 ， 解 决 了 这 个 问题 。 

图 4. 18 通过 一 个 例子 对 多 宿主 进行 了 说 明 。 这 里 ， 进 程 X 与 进程 Y 之 间 有 一 个 SCIP 会 话 。 与 
TCP 的 情况 一 样 ，SCTP 为 每 个 进程 均 提 供 单 个 端口 (进程 X 的 px 和 进程 Y 的 py)， 作 为 传输 层 服务 的 
接口 。 

图 4. 18 的 例子 与 以 前 的 情况 非常 不 同 的 地 方 在 于 ， 运 行进 程 的 相应 主机 是 多 宿主 的 。 运 行进 程 X 
的 主机 连接 到 3 个 网 络 A、B 和 C; 运行 进程 Y 的 主机 连接 到 两 个 网 络 D 入。 因此 ， 前 一 个 主机 有 3 
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个 人 地址 (1,. LAL); 后 一 个 主机 有 两 个 人 地 
hE (IDA I)o SCTP 所 添加 的 独特 新 功能 是 ， 在 所 
有 涉及 的 网 络 上 ， 结 合 从 这 些 网 络 传送 到 进程 分 组 
的 多 路 复 用 ， 对 进程 接收 的 这 些 分 组 流 进行 去 多 路 
复 用 处 理 。 此 功能 提高 了 性 能 和 可 靠 性 。 当 可 用 网 
络 中 有 一 个 拥塞 时 考虑 采用 这 一 功能 ， 其 效果 对 性 
能 的 提升 是 比较 明显 的 。 

SCTP 对 会 话 的 含义 进行 了 略微 修改 ， 将 它 称 
之 为 “关联 。 一 个 TCP 会 话 是 一 个 由 源 IP 地 址 、 
源 疹 口号 、 目 的 IP 地 址 和 目的 端口 号 定义 的 四 元 
组 (1 ， Pas Ips Pp), 4 SCIP KR (<k >, 
P., <I,>,P,), BR <l>A <I, > 分 别 是 源 地 
址 和 目的 地 址 的 列表 。 

总 而 言 之 ， 人 们 注意 到 ， 在 主要 的 操作 系统 中 

经 实现 了 SCTP， 并 且 已 经 被 3GPP 规定 作为 一 种 
EIEN, 专门 适用 于 具有 高 可 靠 性 需求 的 各 种 应 用 协议 (例如 ，Diameter， 一 种 用 于 认证 、 
授权 和 计 费 的 协议 ) 。 

在 应 用 层 协议 方面 ， 一 个 比较 小 的 具有 代表 性 的 子 集 如 图 4. 17 所 示 。 这 些 协议 是 针对 特定 需求 制 
ER: 用 于 电子 邮件 的 简单 邮件 传输 协议 (Simple Mail Transfer Protocol ，SMIP) 、 通 过 虚拟 终端 用 于 连 
接 大 型 机 账户 的 Telnet、 用 于 文件 传输 的 文件 传输 协议 (File Transfer Protocol，FTP) 、 用 于 对 网 元 和 设 
备 进行 远程 管理 的 简单 网 络 管 理 协议 (Simple Network Management Protocol, SNMP) 等 。 

超 文本 传输 协议 (Hyper - Text Transfer Protool, HTTP) 不 仅 定 义 并 且 开 局 了 万 维 网 (World - 
Wide Web，WWW) ， 而 且 如 稍 后 将 看 到 的 ， 它 还 影响 了 通用 风格 访问 资源 的 创建 及 对 其 进行 远程 操作 
调用 的 方式 。 这 种 风格 已 经 成 为 云 计算 应 用 程序 访问 的 核心 。HTTP 的 局 限 性 在 于 ， 只 有 HTTP 客户 端 
才 可 以 开局 与 服务 器 的 对 话 。 其 中 ， 服 务 器 只 对 客户 端 做 出 回应 。 对 于 全 双 工 客户 端 到 服务 器 通道 ， 
WebSocket 协议 和 API 分 别 由 IETF 和 W3C 所 开发 和 标准 化 。 

10 年 前 ， 类 似 的 接收 服务 器 通知 的 功能 被 构建 成 IETF 的 会 话 初 始 协 议 (Session Initiation Protocol , 
SIP) ， 制 定 该 协议 用 于 对 多 媒体 会 话 进行 创建 和 管理 。 作 为 第 三 代 和 第 四 代 无 线 网 络 (以 及 固 网 的 下 
一 代 网 络 ) 基础 的 3GPP IP 多 媒体 子 系统 (IP Multimedia Subsystem, IMS) 就 是 基于 SIP 构建 的 。 

实际 的 实时 媒体 传输 由 正 TF 的 实时 协议 (Real Time Protocol, RTP) 执行 。 为 此 ，( 最初 未 预见 到 
的 ) 支持 实时 通信 的 需求 已 经 促使 了 QoS 发 展 ， 这 部 分 内 容 将 在 下 一 节 中 介绍 。 在 Steve Deering 的 演 
讲 中 ， 他 把 这 个 发 展 称 为 是 具有 “重量 级 ”的 ， 并 在 他 接 下 来 的 演示 文稿 中 介绍 了 一 个 腰部 更 加 宽厚 
的 沙漏 。 








me ( Quality of Service, Qos) 术语 ， 实际 上 指 的 是 _“ 些 相当 具体 且 可 以 将 
量 的 东西 。 在 我 们 看 来 这些“ 东西 ”可 以 归结 成 一 些 参数 ,例如 带宽 、 延 人 返 和 延迟 变化 (也 称 为 拌 
动 )。 遵 守 这 些 参数 的 某 些 值 可 以 打造 音频 或 视频 服务 。 

在 数据 通信 的 早期 阶段 ， 几 乎 没有 对 延迟 或 延迟 变化 敏感 的 实时 应 用 程序 。 电 话 (即使 是 数字 化 ) 
仅 由 电话 公司 控制 ， 而 且 它 依赖 于 面向 连接 的 传输 ， 这 提供 了 恒定 的 比特 率 传输 。20 世纪 80 年 代 ， 综 
合 业 务 数字 网 (Integrated Services Digital Network ，ISDN ， 相 关 历 史 发 展 请 参见 本 章 参 考 文 献 [31) 电 
话 公司 的 愿景 是 让 话音 业务 流 癌 传统 交换 ， 而 数据 业务 被 鲫 载 到 分 组 网 络 。 随 着 提供 带宽 的 增长 ， 帘 
af ISDN 计划 设想 了 使 用 面向 连接 的 ATM 交换 机 。 为 此 ， 有 关 QoS 配置 和 保证 的 详细 研究 和 标准 化 工 
EREE ATM 中 展开 ， 如 本 章 参 考 文献 [5] 所 述 。 

在 20 世纪 90 年 代 进 行 的 支持 IP 网 络 的 QoS 标准 化 与 ISDN 无 关 ， 但 它 却 是 具有 革命 性 的 。 术 语 
“综合 业务 分 组 网 ”由 Jonathan Turner 创造 ， 他 在 文章 …… 中 写 道 :“ 在 本 文中 ， 我 认为 目前 ISDN 提案 中 
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回 有 的 演进 方法 不 太 可 能 提供 有 效 的 长 期 解决 方案 ， 并 且 我 主张 采用 更 先进 的 分 组 交换 技术 的 革命 性 
方法 。 本 文 的 大 部 分 内 容 都 是 针对 综合 业务 分 组 网 (Integrated Services Packet Network, ISPN) 的 详细 
描述 ， 我 建议 将 其 作为 当前 ISDN 提案 的 替代 方案 。” 本 章 参 考 文献 [13] 对 Jonathan Turner 的 这 一 愿 
景 提供 了 进一步 的 理论 文 持 。 最 终 ， 综 合 业 务 模式 的 标准 一 一 特别 是 资源 保留 配置 协议 ( Resource 
ReSerVation Setup Protocol, RSVP), Hh IETF 在 20 世纪 90 年 代 末 制定 。 这 种 综合 业务 模式 有 效 地 建立 
了 (尽管 只 是 暂时 的 ) 一 种 虚 电路 ， 使 用 路 由 天 保持 它 的 状态 。 

RA, ISDN 并 没有 成 为 “一 种 有 效 的 长 期 解决 方案 ”， 但 就 在 标准 制定 的 时 候 ，ISPN 革命 也 遇 到 
了 困难 ， 稍 后 在 讨论 这 项 技术 的 时 候 ， 将 解释 这 个 问题 。 其 对 立 面 是 区 分 服务 运动 (该 名 称 本 吴 是 
“综合 服务 ”的 双关 语 ) 1998 年 3 HIE T IETF 的 相关 工作 。 区 分 服务 模式 暗示 没有 虚 电 路 。 路 由 天 
不 保持 状态 ， 而 是 根据 各 和 目的 类 别 来 对 待 并 处 理 到 达 的 分 组 ， 如 IP 分 组 本 身 的 编码 。 

最 终 ， 人 们 发 现 综合 业务 模式 是 无 法 扩展 的 ， 而 且 没 有 被 部 署 。 区 分 服务 模式 局 得 了 胜利 ; 然而 ， 
这 是 因为 基于 虚 电 路 的 全 新 的 网 元 技术 的 出 现 ， 多 协议 标签 交换 (Multi - Protocol Label Switching， 
MPLS) 技术 本 身 就 将 互联 网 和 ATM 方法 综合 起 来 了 ， 因 此 赢得 了 最 终 的 胜利 。 基 于 MPLS, 综合 服务 
和 区 分 服务 模式 结合 在 一 起 : 一 种 RSVP 的 变 体 用 于 建立 电路 ; 区 分 服务 用 来 维持 电路 上 保证 的 QoS. 

本 节 的 其 余部 分 首先 介绍 了 流量 模型 和 QoS 参数 ， 然 后 解释 了 综合 服务 与 区 分 服务 模式 和 协议 的 
内 容 。 本 节 内 容 最 终 以 对 MPLS 的 介绍 来 结束 全 节 内 容 。 


4.3.1 分 组 调度 规则 和 流量 规范 模型 kkk 

正如 高 速 公路 上 行驶 的 汽车 保持 恒定 的 速度 一 样 ， 通 过 网 线 传播 的 比特 数据 也 是 一 样 。 在 道路 汇 
合 或 交叉 的 地 方 ， 汽 车 必须 减速 或 停止 ， 这 时 交通 速度 会 发 生变 化 ; 同样 ， 网 络 流量 速度 变化 发 生 在 
路 由 禹 的 “交叉 点 ”处 。 

路 由 融和 需要 对 到 达 的 分 组 进行 检查 ， 以 确定 它 需 要 向 分 组 的 目的 地 转发 的 接口 ( 即 地 址 )， 由 于 路 
FA de PAY VO 处 理会 消耗 一 定 的 时 间 ， 因 此 这 自然 会 增加 延迟 。 鉴 于 分 组 在 几 个 接口 上 同时 到 达 ， 很 
容易 看 到 路 由 器 如 何 成 为 影响 性 能 的 瓶颈 。 这 些 分 组 最 终 进 入 这 样 或 那样 的 队列 中 ， 等 待 转发 。 只 要 
排队 分 组 的 长 度 相 加 达到 被 分 配 路 由 器 的 内 存 限 额 ， 路 由 器 内 的 分 组 才 会 被 延迟 ,但 是 当 这 个 限额 达 
HRT, PAH ir m Bt Ze FP IK HE FP AH 

Bet EE ards PAY, AY DAA HE SS, hE ec) oP ET Ach A OK Wt E 
所 接收 的 业务 流量 ， 在 根据 分 组 类 型 对 分 组 进行 差异 化 处 理 的 过 程 中 ， 路 由 器 采用 的 是 分 组 调度 规则 ， 
该 规则 可 以 选择 分 组 传输 的 顺序 〈 目前， 特意 使 用 抽象 的 属于 类 型 ， 而 不 指定 该 类 型 是 如 何 确定 的 。 
将 在 后 续 章 节 中 介绍 每 个 特殊 情况 下 的 分 组 分 类 ) 。 

图 4. 19 说 明了 3 个 主要 的 分 组 调度 规则 : 

1) 尽力 而 为 ， 以 先 到 先 得 的 方式 发 送 分 组 ; 当 队 列 变 得 太 大 时 ， 它 们 被 丢弃 。 

2) 公平 排队 ， 根 据 每 个 分 组 类 型 对 分 组 进行 排队 ， 通 过 传输 轮转 ， 来 保证 每 种 类 型 都 拥有 相等 的 
带宽 份额 。 这 里 ， 在 统计 上 具有 更 多 分 组 的 业务 流量 类 型 与 具有 和 较 少 分 组 的 业务 流量 类 型 相 比 ， 后 者 
将 率先 传送 完毕 。 

3) 加 权 公 平 排队 ， 也 采用 轮转 调度 ， 但 根据 每 种 类 型 的 优先 级 来 分 配 带宽 。 与 公平 排队 的 区 别 在 
于 ,取代 了 从 每 个 队列 中 传输 相同 数量 的 个 字 节 ， 而 是 根据 队列 中 分 组 的 类 型 + 从 每 个 队列 中 传输 
na 个 字 节 。 优 先 级 越 高 的 队列 ， 分 配 的 权重 w, 越 大 。 

事实 证 明 (在 本 章 参考 文献 [14] 中 证 明 ) ， 可 以 保证 每 种 类 型 的 端 到 端 延 迟 和 缓冲 大 小 的 上 限 。 

当 足 够 的 路 由 融 达 到 它们 的 极限 时 ， 整 个 网 络 就 会 拥塞 。 这 种 情况 在 运输 和 人 和 群 控制 方面 是 众 所 
周知 的 。 在 这 两 种 情况 下 ， 通 常 在 拥挤 城市 或 拥挤 地 方 人 口 采用 准 人 控制 策略 。 

网 络 接 人 中 使 用 的 两 种 流量 规范 模型 基于 更 为 简单 的 类 比 〈 见 图 4.20) ， 即 底部 有 一 个 小 孔 的 桶 。 
这 个 孔 象 征 着 网 络 的 人 口 。 当 桶 满 时 ， 水 开始 溢出 ， 不 会 进入 到 “网 络 ”。 

现在 设想 一 个 扮演 塞 子 角色 的 主机 ， 将 分 组 插入 到 访问 控制 “ 桶 ”中 ， 它 是 一 个 大 小 为 B 字 节 
CHAP) 的 网 络 控制 队列 ， 以 p 字 节 /s 的 速率 来 处 理 队 列 。 

使 用 漏 桶 模型 ， 一 旦 桶 满 了 ， 以 高 于 po 的 速率 到 达 并 导致 溢出 的 分 组 将 被 丢弃 。 该 模型 消除 了 流 
量 突 发 一 流量 可 以 以 恒定 的 速率 进入 网 络 ， 而 不 能 比 这 个 恒定 速率 快 。 
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或 者 状况 决定 。 令 牌 桶 以 > 令 牌 /s 的 速率 接收 称 为 令 牌 的 量 ,并且 它 可 以 容纳 5b 个 令 牌 ( 当 桶 满 时 ， 
令 牌 停止 到 达 ) 。 现 在 ， 当 离开 令 牌 桶 时 ， 令 牌 会 打开 主 桶 阀门 【 见 图 4.20b] ,来 允许 输出 一 个 字 节 ， 
此 时 ,阀门 关闭 。 因 此 ， 当 令 牌 桶 为 空 时 ,不 允许 产生 流量 。 然 而 ， 如 果 没 有 流量 输出 ,， 令 牌 桶 底部 
的 孔 将 会 关闭 ， 因 此 , 令 牌 被 保存 在 桶 中 直到 它们 开始 溢出 。 令 牌 桶 与 漏 桶 模型 的 区 别 在 于 ， 现 在 可 
以 允许 达到 令 牌 桶 大 小 的 突 发 产生 。 

因此 ,i 时 间 段 内 准许 流量 的 容量 V(t) 被 限定 为 

V(t) <rt +b 

因此 ， 最 大 的 突 发 好 可 以 持续 (M-b)/r 秒 。 

通过 在 强制 速率 为 R 的 漏 桶 后 面 放置 一 个 令 牌 桶 ， 可 以 使 流量 不 会 超过 该 速率 ， 同 时 允许 受 控 的 
突 发 存在 。 
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4.3.2 REMRS ++ | 


在 综合 服务 模型 中 区 分 分 组 的 类 型 由 流 定义 。 流 是 一 个 五 元 组 : (W IP hk, Wmo, HWX, H 
的 端口 ， 目 的 让 地址 )。 其 中 ,协议 用 于 指定 传输 协议 。 在 定义 该 模型 时 ， 只 有 两 个 这 样 的 协议 : TCP 
和 UDP (SCTP 是 在 后 来 定义 的 ， 而 且 由 于 它 的 多 路 复 用 特性 ， 并 不 完全 符合 ， 除 非 扩展 流 的 定义 允许 
将 源 IP 地 址 和 目的 IP 地址 扩展 成 IP 地址 组 )。 需 要 注意 的 是 , 分 层 原 则 在 这 里 被 打破 ， 因 为 路 由 器 必 
须 检查 IP AAR o 

在 最 简单 的 情况 下 ， 流 是 由 网 络 层 同 传 输 层 提供 的 单 工 〈 即 单身) 端 到 端的 虚 电 路 ; 然而 ， 综 合 
服务 使 用 了 组 播 方式 ， 因 此 在 一 般 情 况 下 ， 这 里 的 虚 电 路 是 一 棵 “ 树 ”， 它 的 “ 根 ” 源 于 要 发 送 分 组 
的 点 。 

综合 服务 框架 是 为 了 补充 IP 而 精心 构建 的 ， 但 为 了 文 持 它 ， 卫 路 由 器 必须 在 很 大 程度 上 进行 改 
变 。 这 种 改变 包括 进行 预 留 的 必要 性 ， 即 建立 电路 ， 然 后 在 需要 时 保持 这 些 电 路 。 

RFC 1633 中 规定 的 IETF 1994 综合 服务 框架 定义 了 一 种 新 的 路 由 器 功能 ， 称 为 流量 控制 ,采用 3 个 
组 件 来 实现 : 准 入 控制 、 分 类 颖 和 分 组 调度 右 (顺便 提 一 句 ， 区 分 服务 框架 在 很 大 程度 上 重用 这 些 术 
语 )。 

准 入 控制 的 作用 是 决定 一 个 新 的 流 是 否 可 以 获得 所 需 的 QoS 支持 。 具 有 相同 类 型 的 多 个 流 接受 相 
同 的 QoS 处 理 是 可 能 的 。 然 后 ， 分 类 嘎 将 传人 的 分 组 映射 到 它们 各 上 自 的 类 型 〈 也 称 为 服务 类 ) 上 。 最 
后 ,分 组 调度 器 在 每 个 转发 接口 上 管理 按 类 排列 的 分 组 队列 ， 并 在 转发 接口 上 串 行 化 产生 分 组 流 。 

上 述 实体 在 路 由 硕 中 ， 也 在 端点 主机 上 建立 和 设置 。 由 RSVP 启动 综合 服务 ，RSVP 在 端点 主机 和 
之 间 的 路 由 器 中 ， 为 每 个 流 创 建 和 维护 一 个 针对 每 个 流 的 特定 状态 。 稍 后 将 详细 讨论 RSNVP， 但 通常 的 
想法 是 ， 接 收 应 用 端点 根据 流 规范 或 flowspec 指定 QoS 参数 ， 然后 穿 过 网 络 送 到 源 主机 9。 在 通过 路 由 
anit, flowspec 需要 在 每 个 路 由 船 中 通过 准 和 人 控制 检查 ; 如 果 检 查 通过 ， 则 预 留 被 接受 ， 预 留 设 
置 代理 更 新 路 由 器 流量 控制 数据 库 的 状态 。 

图 4.21 展示 了 对 RFC 1631 框架 图 的 一 些 修 改 , 解释 了 上 述 要 素 之 间 的 互通 性 。 控 制 面 和 数据 面 之 
间 有 明显 的 区 分 ， 在 控制 面 ， 信 令 与 实际 数据 传输 异步 发 生 ; 在 数据 面 ， 分 组 实时 流动 。 有 趣 的 是 ， 
RFC 1631 的 作者 设 起 由 网 络 管理 来 完成 预 留 ， 即 不 使 用 路 由 到 路 由 的 协议 。 路 由 器 的 这 种 功能 与 转发 
无 关 。 





路 由 代理 预 留 设置 代理 





Pe, ae 
IIE HRS DAA A OH PE TE AS ALO HE EK) EDR, CRE RCRA (Traffic 


O ”如果 这 看 起 来 有 些 奇 怪 ， 可 以 考虑 一 下 20 世纪 90 年 代 的 流 媒体 视频 应 用 程序 。 大 概 这 种 接收 终端 应 该 订阅 服务 (甚至 
可 以 为 其 所 需 的 QoS 支付 网 络 费 用 ) ， 因 此 对 于 它 来 说 开启 预 留 是 合理 的 。 
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descriptor, TSpec) 和 定义， 这 是 服务 对 网 络 的 义务 。 网 络 对 应 用 程序 的 义务 在 服务 规范 (Service Specifi- 
cation, RSpec) 中 定义 。 

TSpec 基于 令 牌 桶 模型 ， 包 含 了 5 个 参数 

1) 令 牌 速率 r (FP/s); 

2) 峰值 速率 P〈《 字 节 /s) ; 

3) SRE b (F); 

4) 最 小 监管 单元 m (FH) (如 果 分 组 较 小 ， 仍 将 其 计 为 m DFT); 

5) 最 大 分 组 大 小 M。 

RSpec 包含 了 两 个 参数 : 服务 速率 尺 ( 字 节 /s) 和 为 了 在 调度 中 引入 一 些 灵 活性 的 “放松 条 件 ”5 
(hs) ， 它 是 可 以 在 仍然 满足 端 到 端 延 迟 上 限时 添加 的 延迟 时 间 。 

图 4. 22 提供 了 关于 TSpec 和 RSpec 参数 
保证 服务 在 最 糟糕 情况 下 延迟 时 间 的 公式 。 这 





里 有 两 个 附加 的 路 由 相关 变量 : (b— M)(p—R) 

C: 由 于 分 组 长 度 和 传输 速率 ， 分 组 在 路 Ren py 
由 器 i 中 经 历 的 开销 。 

D: 由 于 流 识别 、 流 水 线 等 ， 分 组 在 路 由 Tspec 
器 i 中 经 历 的 与 速率 无 关 的 延迟 。 | n QK 

与 保证 服务 不 同 ， 控 制 负载 服务 最 好 根据 2" b: 今 牌 桶 深度 
不 允许 发 生 的 情况 进行 描述 ， 即 可 见 的 排队 延 et yy ”ht 
迟 或 可 见 的 拥塞 损失 ， 这 样 便于 理解 。 这 个 定 RSpec: 
义 是 相当 含糊 的 ， 没 有 定量 的 保证 ， 因 为 准 和 R: 服务 如 率 


控制 留待 实现 (有 时 ， 这 项 服务 被 称 为 更 好 i Te 
的 尽力 而 为 的 服务 ) 。 使 用 这 项 服务 PEHA 一 ac T 
依赖 于 统计 机 制 ， 避 免 了 昂贵 的 预 留 。 因 此 ， 控 制 负载 服务 只 需要 TSpec (其 中 限制 了 应 用 程序 可 以 插 
和 人 到 网 络 的 流量 ) ， 而 不 需要 RSpec (其 中 规定 了 网 络 义 务 )。 

1997 年 ，IETF 完成 了 综合 服务 标准 ， 并 在 RFC 2205 到 RFC 2216 的 一 系列 RFC 中 为 此 目的 ?指定 
了 RSVP。 

图 4.23 提供 了 使 用 RSVP 的 简单 示例 。 
综合 服务 接收 方 的 主机 使 用 RESYV 消息 局 动 预 
留 。 此 消息 携带 流 描 述 符 、 时 间 值 〈 刷 新 所 
需 ， 将 在 稍 后 解释 ) 、 目 的 卫 和 端口 地 址 、 协 
议 号 等 参数 。 请 求 通过 路 由 器 上 行 传播 ， 直 到 
它们 到 达 提 供 这 项 服务 的 主机 。, 

后 一 个 主机 使 用 PATH 消息 进行 啊 应 ， 
PATH 消息 下 行 传播 ， 并 在 路 由 冀 中 安装 状 
态 。 该 消息 包含 流标 识 、 发 送 方 TSpec、 时 间 
值 和 其 他 参数 〈 顺 便 提 一 下 ， 出 于 安全 性 的 
考虑 ，RESV 和 PATH 消息 都 包含 了 其 完整 性 
的 加 密 证 明 ， 即 证 明 它 们 没有 被 算 改 ) 。 作 为 
PATH 消息 传播 的 结果 ， 所 有 路 由 器 都 安装 了 预 留 状态 (图 4. 23 中 用 小 圆圈 表示 ) 。 接 受 “ 在 网 络 中 保 
持 状态 ” ， 意 味 着 早期 互联 网 原则 的 重大 妥协 ; 然而 ， 这 种 状态 被 声明 为 “ 软 ” 状 态 。 只 要 RESV 和 
PATH 消息 在 指定 的 时 间 段 内 总 是 到 达 ， 它 就 会 被 保持 ， 并 且 实 际 上 程序 在 会 话 期 间 总 是 在 不 断 地 发 布 
它们 。 这 应 该 就 解释 了 两 种 消息 中 需要 时 间 值 的 原因 。 如 果 交 换 停 止 ， 则 状态 被 销毁 。 

会 话 也 可 以 使 用 PATHTear 消息 拆除 。 图 4. 24 中 的 表格 提供 了 完整 的 RSVP 消息 集 。 

稍 后 将 会 看 到 ， 其 他 模型 中 RSVP 的 作用 将 与 综合 服务 中 的 作用 不 同 。 





O WMR, RSVP 扩展 已 被 用 于 不 同 的 控制 面目 的 ， 这 远 远 超出 了 综合 业务 的 范围。 
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4.3.3 区 分 服务 *** | 


称 为 区 分 服务 ， 是 为 了 强调 与 综合 服务 的 区 别 。 正 如 | PATH 下 行 (发 送 方 到 接收 方 ) 
提 到 的 那样 ， 这 些 服务 又 是 以 ISDN 命名 的 (因此 , 这 里 | RESY EGR A RT) 
的 词 源 仍然 指向 电话 网 络 ) 。 然 而 ， 这 两 种 模式 中 的 服务 | ee eens 
本 身 几乎 相同 ， 只 是 使 用 它们 的 手段 不 同 。 制 定 新 模式 的 “| partar 
主要 原因 是 ， 综 合 服务 (其 预 留 和 状态 机 制 ) 不 会 在 大 | RESVTear 上 行 
型 核心 网 络 中 扩展 。 RESVConf 下 行 (响应 RESV 中 的 特定 请 求 ) 


与 综合 服务 模式 一 样 ， 服 务 (就 QoS 而 言 ) 以 其 端 
到 端的 行为 为 特点 。 但 是 这 里 没有 定义 服务 。 相 反 ， 该 模 
式 文 持 一 组 预先 定义 好 的 独立 于 服务 的 模块 。 类 似 地 ， 转 
发 处 理 的 特征 在 于 每 个 路 由 需 的 行为 〈 分 组 调度 ) ， 并 且 这 种 模式 定义 了 转发 行为 而 不 是 并 到 端 行 为 ) 。 

男 一 个 巨大 的 差异 是 ， 没 有 保留 QoS 的 信和 令 协 议 。 因 此 ， 在 路 由 画 中 不 会 保留 状态 。 此 外 ， 在 这 
种 模式 中 ， 没 有 流 的 意识 或 任何 其 他 虚 电 路 的 结构 。 分 组 所 属 的 流量 类 型 (根据 它 进 行 处 理 ) 被 编码 
在 分 组 的 首部 字段 (IPv4 中 的 服务 类 型 ，IPv6 中 的 服务 等 级 ) 中 。 这 些 类 型 被 称 为 类 别 ， 路 由 资源 
被 分 配给 每 个 类 别 。 

代替 信 令 ， 网 络 配置 被 用 于 向 路 由 顺 提 供 必要 的 参数 。 和 定义 好 的 转发 处 理 可 以 组 合 起 来 提供 新 的 服务 。 

类 别处 理 基 于 客户 和 服务 提供 商 之 间 的 服务 水 平 协议 (Service - Level Agreements，SLA) 。 流 量 在 
网 络 边 缘 得 以 被 监管 ; 之 后 ， 网 络 本 号 就 采用 基于 类 别 的 转发 。 

下 面 看 一 些 细节 。 每 个 每 跳 行 为 (Per- Hop - Behavior, PHB) 被 分 配 一 个 6 比特 的 区 分 服务 编码 
点 (Differentiated Services Codepoint, DSCP), PHB 是 构建 模块 : 具有 相同 编码 点 的 所 有 分 组 都 会 进行 
行为 聚合 ， 并 获得 相同 的 转发 处 理 。PHB 可 以 进一步 组 合成 PHB 组 。 

在 区 分 服务 ( Differentiated Service, DS) 域内 的 所 有 路 由 器 中 ，PHB 的 处 理 都 是 相同 的 。 再 次 ， 出 
于 提供 QoS 的 目的 ， 源 地 址 和 目的 地 址 、 协 议 ID 和 端口 是 无 关 紧 要 的 ， 只 有 DSC 是 重要 的 。 

客户 和 服务 提供 商 之 间 以 及 两 个 相 邻 领域 之 间 的 服务 水 平 协议 (SLA) 规定 了 这 些 服务 。SLA 规定 
了 流量 以 及 安全 性 、 计 费 、 账 单 和 其 他 服务 参数 。SLA 的 核心 部 分 是 流量 控制 约定 (Traffic Conditioning 
Agreement，TCA) ， 其 定义 了 了 流量 规格 和 相应 的 监管 措施 。 这 些 示例 是 每 个 类 别 的 令 牌 桶 参数 (ot 
量 、 延 迟 和 丢弃 优先 级 ) ， 以 及 不 符合 条 件 分 组 的 操作 。 

图 4. 25 说 明了 这 些 概念 。SLA 可 以 是 静态 的 〈 即 提供 一 次 ) 或 动态 的 〈 即 通过 实时 网 络 管理 动作 
来 改变 ) 。 





O ”经 美国 阿尔 卡特 朗讯 公司 许可 转载 自 本 章 参 考 文献 [3]. 
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| 第 4 章 ， 数据 网 络 一 云 的 神经 系统 『@】 


就 PHB 分 类 而 言 ， 默 认 的 PHB 组 对 应 于 好 的 旧 的 尽力 而 为 的 处 理 。 实 际 的 从 类 别 选 择 器 (Class 
Selector, CS) PHB 组 ( 按 升 序 优 先 级 顺序 列举 的 CS-1~CS-8) 开始 。 
下 一 组 是 快速 转发 (Expedited Forwarding, EF) PHB 组 ， 保 证 会 聚 分 组 的 离开 速率 不 低 于 到 达 速 
率 ， 其 中 假设 EF 流量 可 以 抢占 其 他 流量 。 
保证 转发 (Assured Forwarding, AF) PHB 组 将 优先 级 〈 按 升序 排列 ) 分 配给 4 个 服务 类 别 ， 并 为 
| 每 个 服务 类 别 定义 了 3 种 丢弃 优先 级 〈 作 为 规格 外 分 组 的 处 理 ) 。 
| 图 4. 26 为 保证 转发 提供 了 一 个 不 言 而 喻 的 说 明 : 针对 每 个 运输 类 别 ， 列 出 它 的 优先 级 以 及 丢弃 优 
先 级 。 





类 别 1 类 别 2 类 别 3 


丢弃 优先 级 ( 低 ， 中 ， 高 ) 


Ses He eae ae raat. Any å né te -ar Ws RE CG | esi 
; E E S ES E e 4 Bade DAN AAEE M m LAT > AAA 4 i ER BRE des reas Nine i PE ERS AAS eer HOE SE AEA. esc teeta: corte SS 
KERS 二 二 oe ew Fo fie bb i a Z WE a yo Pee PEST A bi OFRE V. “ if D Rie si es SER aa Sens ee 





[Gs 计算 技 术 与 商业 起 势 。 


这 种 架构 的 主要 要 素 包 括 分 类 器 、 计 量 器 、 标 记 露 、 丢 弃 器 和 整形 需 。 

分 类 天 的 功能 在 网 络 边 绿 和 内 部 节 扣 上 是 不 同 的 。 在 位 于 网 络 边缘 的 边界 节点 上 ， 分 类 秦 确 定 分 
组 所 属 的 聚合 和 相应 的 SLA; 在 网 络 中 的 其 他 地 方 ， 分 类 融 仅 检查 DSCP 但。 

计量 器 根据 流量 协议 规范 (Traffic Agreement Specification, TAS) 检查 聚合 (传人 分 组 所 属 的 聚 
合 )， 并 确定 其 是 否 在 类 别 规格 的 范围 中 。 根 据 特定 的 情况 ， 分 组 被 标记 或 被 丢弃 。 

标记 器 在 DS 字段 中 写 入 相应 的 DSCP。 标 记 可 以 由 主机 完成 , 但 由 边界 节点 检查 (并且 在 必要 时 
可 能 会 被 改变 ) 。 在 某 些 情况 下 ， 可 能 会 使 用 特殊 的 DSCP 来 标记 不 符合 条 件 的 分 组 。 如 果 发 生 拥塞 ， 
这 些 被 判定 的 分 组 可 能 会 被 丢弃 。 根 据 SLA 约定 的 流量 规格 ,分 组 也 可 能 被 升级 或 降级 。 

整形 天 延迟 不 符合 条 件 的 分 组 ， 直 到 它 训 来 相应 的 聚合 符合 流量 规格 。 为 此 ， 通 向 需要 在 出 口 节 
点 和 人 口 节 点 之 间 进 行 整形 。 

总 而 言 之 ， 以 上 给 出 了 关于 各 上 自 标 准 相 应 的 说 明 。 在 不 同 的 时 期 ， 总 共有 十 几 个 区 分 服务 REC 被 
IETF 发 布 。RFC 2474 将 PHB 映射 到 IP 分 组 的 DS 编码 点 。RFC 2998 利用 了 将 边缘 网 络 中 的 综合 服务 
和 核心 网 络 中 的 区 分 服务 结合 在 一 起 的 想法 。 鉴 于 网 络 管理 在 这 里 的 特殊 重要 性 ， 强 烈 建 议 读者 阅读 
RFC 3279 和 RFC 3280， 它 们 分 别 定义 了 路 由 器 中 的 管理 信息 库 〈 即 所 有 参数 的 集合 ), 并 解释 了 网 络 
管理 操作 。 


4.3.4 MPLS *x*x | 


Deering 在 他 的 IP 沙漏 演讲 中 ， 提 到 了 MPLS 以 及 它 所 支持 的 多 种 技术 ，Deering 博士 把 它们 称 为 
“ 腰 下 凸 起 ”， 叹 息 道 “糟糕 的 是 ,下 已 经 做 的 《或 可 以 做 的 ， 或 应 该 做 的 ) 大 部 分 是 重新 创造 ”。 也 
许 情况 是 这 样 ， 但 是 正 并 没有 提供 一 种 简单 的 虚 电 路 交换 方案 。 这 并 不 奇怪 ， 因 为 这 样 的 方案 会 与 互 
联网 的 基本 原则 相抵 触 。 

鉴于 20 世纪 90 年 代 中 期 ，ATM 交换 机 以 及 帧 中 继 交 换 机 都 需要 做 一 些 工作 来 综合 面向 连接 和 无 
连接 的 技术 。 本 章 参考 文献 [15] 介绍 了 这 种 后 来 被 称 为 “标签 交换 ”的 综合 ， 其 中 毫 不 含糊 地 指出 
了 ,“ 通 过 采用 通用 的 寻 址 、 路 由 和 管理 程序 ， 可 以 简化 路 由 器 和 异步 传输 模式 交换 的 集成 ”。 

IETF MPLS 工作 组 自从 1997 年 以 来 ,一 直 处 于 活跃 工作 的 状态 。 它 已 经 成 为 最 繁忙 的 IETF 工作 组 
之 一 ， 已 经 发 布 了 70 Zh RFC, 

借助 图 4. 28 可 以 比较 明显 地 看 出 路 由 和 交换 之 间 的 区 别 ， 接 下 来 在 此 基础 上 开始 对 MPLS 的 论述 。 





URON CIMEMRE FUEDERMENDUEDURNR. ATAKU. 
个 人 需要 明确 知道 此 刻 自己 在 哪里 ， 找 到 这 个 地 方 和 它 在 地 图 上 的 地 标 ， 找 到 一 组 看 起 来 像 到 达 访 
76 





标 最 短路 径 的 街道 ， 然 后 开始 往 这 个 目标 走 ， 检 查 拐角 处 街道 的 名 称 ， 如 图 4. 28a 所 示 ， 决 定向 哪个 方 
问 转 穿 。 这 需要 一 段 时 间 ， 而 过 时 的 地 图 可 能 会 使 事情 进一步 复杂 化 。 这 就 是 路 由 存在 的 问题 。 如 果 
是 走路 的 话 ， 那 么 在 这 些 情况 下 ， 每 个 开车 的 人 都 知道 这 会 更 让 人 崩 演 (周围 其 他 被 挡 着 路 的 司机 会 
不 停 地 按 喇叭 1) 

但 是 ， 当 所 有 人 都 要 做 的 就 是 跟着 路 牌 标识 向 目标 地 标 出 发 时 , (无论 是 步行 还 是 驾车 ) 找到 目的 
地 这 件 事 就 变 得 非常 简单 了 。 这 就 是 在 预 设 电 路 上 交换 的 情况 。 电 路 没 必 要 是 永久 性 的 就 像 标 志 着 
地 标 建 筑 物 方向 的 永久 路 牌 和 在 道路 修复 期 间 临 时 放置 的 绕 行 路 牌 ) 。 还 有 一 个 比喻 是 美国 高 速 公路 的 
路 线 命名 。 从 迈阿密 到 波士顿 ， 只 需要 沿 帮 95 号 州 际 公路 即 可 ， 实 际 上 这 条 公路 延伸 到 几 条 不 同 的 高 
速 公 路 上 ， 这 些 公 路 其 至 以 不 同 的 方式 命名 。 但 是 ， 交 又 路 口 有 很 好 的 路 牌 标志 作为 指示 ， 只 要 汽车 
司机 跟着 这 些 标志 (而 不 是 看 地 图 ) ， 汽 车 就 可 以 从 一 条 高 速 快速 切换 到 另 一 条 高 速 公 路 上 ， 而 在 这 个 
过 程 中 ， 车 辆 始终 行驶 在 这 条 路 线 上 。 

类 似 地 ， 使 用 数据 报 交 换 ， 网 络 市 点 不 必 通 过 确定 数据 报 的 目的 地 将 其 转发 到 下 一 个 节点 。 相 反 ， 
数据 报 提供 了 一 个 (本 地 有 意义 的 ) 接口 号 一 一 虚 电 路 四， 使 得 数据 报 能 够 根据 它 命 名 的 接口 进行 精 
确 的 转发 。 例 如 ， 图 4.28b 左 侧 的 节点 已 经 接收 到 要 在 接口 3 上 转发 的 数据 报 。 该 节点 的 交换 映射 图 表 
明 下 一 个 节点 转发 该 数据 报 的 接口 号 为 2， 所 以 虚 电 路 ID 3 被 下 一 条 虚 电路 ID 2 所 替代 。 因 此 ， 数 据 
报 跟 看 预 设 的 “电路 ”进行 转发 。 

这 正 是 MPLS 的 工作 原理 。 首 先 ， 标 签 交 换 路 径 (Label - Switched Path，LSP， 一 种 虚拟 的 病 到 端 
电路 ) 被 建立 ; 然后 ， 这 种 交换 机 (也 称 为 支持 MPLS WPA ae) 交换 (而 不 是 路 由 ) 这 些 卫 分 组 ， 
而 不 会 看 到 分 组 本 映 。 而 且 ，LSP 可 以 沿 着 任何 路 径 (不 一 定 是 最 短 的 路 径 ) ,建立 ， 这 种 功能 有 助 于 
流量 工程 。 

本 地 有 效 电 路 由 标签 指定 (因此 ，MPLS 包含 L)。 如 图 4.29 所 示 ，MPLS 标签 在 链 路 层 帧 内 作为 
IP 分 组 的 前 级 ， 就 在 原本 是 链 路 层 首部 的 位 置 。 在 ISO 参考 模型 方面 ， 将 MPLS 简单 放置 在 第 二 层 使 其 
并 不 实用 ,“ 真 正 ” 的 链 路 层 都 是 直接 在 物理 电路 上 运行 的 。 为 此 ，MPLS 有 时 被 称 为 “2.5 层 技术 ”。 
由 于 标签 可 以 堆 琶 ,因此 要 想 实现 建立 虚拟 专用 网 的 目的 ， 这 种 情况 将 进一步 复杂 化 〈 与 虚拟 化 一 样 ， 
需要 引入 递归 ) 。 为 了 简单 起 见 ， 假 设 该 堆栈 只 包含 一 个 标签 。 


第 二 层 | MPLS 第 二 层 


生存 时 间 








MPLS S 标签 的 结 ITER RFC 3032 TTR yy 4 ry 

1) 标签 值 (20 位 ) ， 即 实际 的 虚 电 路 ID。 

2) 流量 类 别 (Traffic Class, TC) (3 位 )2， 用 于 与 diffserv 相互 配合 和 显示 拥塞 标记 。 

3) S (1 位 ) ， 是 一 个 布尔 值 ， 指 示 当 前 标签 是 否 是 标签 栈 上 的 最 后 一 个 。 

4) 生存 时 间 (Time -to-Live，TIL) (8 位 ), 与 IPv4 中 的 同名 字段 具有 相同 的 目的 和 相同 的 意 
义 (MPLS 不 检查 IP 分 组 ) 。 


外 ”该 字段 最 初 称 为 EXP (表示 “实验 ")， 尽管 原始 计划 是 尝试 对 QoS 类 别 进 行 编码 。 由 于 没有 对 这 些 事情 达成 一 致 ， 因 
此 就 产生 了 使 用 “实验 ”这 一 结果 作为 策略 上 的 一 种 妥协 。 这 种 犹豫 不 决 被 证 明 是 危险 的 ， 因 为 其 他 标准 化 组 织 将 该 字 
段 的 名 称 解 释 为 邀请 他 们 尝试 使 用 他 们 自己 的 字段 。 考 虑 到 即将 失去 对 标准 的 控制 ，IETF 重新 命名 了 这 一 字段 ， 这 是 通 
过 RFC 5462 实现 并 对 外 发 布 的 。 
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标签 的 使 用 方式 很 简单 。 标 签 值 作 为 MPLS 交换 机 内 部 表 | 称 为 人 标签 映射 (Incoming Label Map, 
ILM) ] 的 索引 ， 其 中 包含 出 标签 、 下 一 跳 〈 即 转发 接口 的 索引 ) 以 及 与 路 径 相 关联 的 状态 信息 。 然 
后 ， 形 成 新 的 链 路 层 帧 ， 将 新 的 出 标签 插入 到 IP 分 组 的 前 面 。 

这 里 有 一 个 有 趣 的 问题 : 在 这 个 框架 中 ， 有 效 载荷 必须 是 IP 分 组 吗 ? 答案 是 ， 这 根本 不 是 必须 的 。 
目前 ， 正 在 IP 网 络 中 讨论 MPLS 的 使 用 ， 自 然 需 要 从 P 的 角度 来 看 待 所 有 的 内 容 ， 但 是 很 快 就 会 用 到 
各 种 有 效 载荷 ， 包 括 ATM 信 元 和 以 太 网 帧 ， 它 们 都 可 以 使 用 MPLS 转发 。 这 最 后 解释 了 MPLS 中 的 
“多 协议 ”部 分 。 然 而 ，MPLS 是 全 网 络 的 发 明 ， 其 主流 的 用 途 还 是 在 P 网 络 中 。 为 了 强调 这 一 点 ， 
MPLS 标准 将 MPLS 交换 机 称 为 标签 交换 路 由 器 (Label - Switched Router, LSR) 。 

虽然 交换 的 过 程 相 当 简 单 ， 但 是 工程 化 、 建 立 和 拆 缉 端 到 端 电 路 的 整体 问题 就 变 得 非常 复杂 。 业 
界 (THE IETF) 多 年 来 一 直 在 解决 这 个 问题 ， 并 且 在 它 的 很 多 其 他 方面 开展 工作 ， 特 别 是 光纤 网 络 
方面 。 

4. 30 说 明了 标签 到 LSP 的 映射 及 其 一 
些 重要 的 属性 。 首 先 ， 所 有 的 LSP (就 像 综合 主机 A 
服务 流 一 样 ) 都 是 单 工 的 。 例 子 实际 上 只 涉 way IT 
及 流 ， 并 且 只 看 其 中 3 +. 下 

1) Hi (a) 源 于 主机 C， 并 终止 于 主机 | tio ` TAA 
B。 为 了 负载 平衡 (一 种 重要 的 网 络 功 能 ， 在 UOTIN cn , 

本 书 中 将 多 次 回 到 这 个 问题 上 ) ， 有 两 条 LSP, Aa] Si TE OO 
LSP I 遍历 了 3 个 LSR， 即 S,、S, 和 S,， 最 后 二 | : 

两 个 分 别 分 配 流标 签 20 和 30。 类 似 地 ，LSP 0 7 fog Wb)CDLSP: (25,50) 
[遍历 了 3 个 LSR， 即 S, 、S, 和 S,， 将 标签 72 Ny/ 流 (c) AD LSP: {71} 

和 18 分 配给 了 同一 个 流 。 

2) ft (b) 源 于 主机 C， 并 终止 于 主机 
D， 也 穿 过 了 LSR S, 、S; 和 S,， 并 为 该 流 分 配 
了 标签 25 和 56。 

3) 流 (ce) 源 于 主机 A， 并 终止 于 主机 
D， 穿 过 LSR S$, 和 S, ， 后 一 个 交换 机 分 配 了 流 
标签 71 。 

标签 交换 路 径 (LSP) 中 的 每 个 标签 与 转 
发 等 价 类 (Forwarding Equivalence Class, FEC) 之 间 具 有 一 对 一 的 关联 ， 后 者 反 过 来 又 与 分 组 接收 的 处 
HIREK, FEC 由 一 组 规则 和 定义。 例如 ， 规 则 可 以 是 ，FEC 中 的 分 组 与 匹配 特定 的 卫 目 的 地 址 ， 或 者 
它们 发 往 相 同 的 出 口 路 由 器 ， 或 者 它们 属于 特定 的 流 OGRA 4. 30 示例 中 的 一 样 ) 。 当 然 ， 不 同 的 
FEC 具有 不 同 的 可 扩展 性 。FEC 分 组 的 分 类 由 入 口 路 由 器 执行 。 

在 这 一 点 上 ， 我 们 准备 简单 讨论 一 下 LSP 的 形成 问题 。 这 是 一 个 简单 的 规则 ， 因 为 只 有 特定 的 
LSR 才 知 道 如 何 索 引 它 自己 的 入 标签 映射 ， 该 规则 指 的 是 ， 回 上 (upstream) 分 配 标签 ， 即 从 信 宿 到 信 
W- RSVP 中 进行 预 留 的 方式 类 似 。 

实际 上 ，RSVP 在 流量 工程 中 的 扩展 被 称 为 RSVP - TE, 已 经 成 为 标签 分 发 的 标准 协议 。 因 为 ，RS- 
VP 最 初 设计 用 于 支持 组 播 ， 所 以 RSVP -TE 的 开发 重新 开启 了 对 宽带 组 播 的 兴趣 。 

在 RSVP-TE 之前， 人 们 还 设计 了 一 个 协议 用 于 标签 分 发 ， 这 个 协议 被 称 为 标签 分 发 协议 (Label 
Distribution Protocol, LDP), JAX, LDP 的 设计 人 员 同 样 需要 考虑 流量 工程 的 问题 ， 因 此 产生 了 LDP H 
展 协议 ,该 协议 被 称 为 基于 约束 的 路 由 LDP (Constraint - based Routing LDP, CR - LDP), 但 是 它 仍然 
无 法 简化 这 个 问题 ， 因 此 BGP 引入 了 自己 的 管理 LSP 的 扩展 协议 。 


主机 C 





S3 CB LSP II: {72, 18} 





O 除了 IETF 之 外 ，MPLS 的 工作 已 经 在 几 个 行业 论坛 (Ain, ATM 论坛 和 帧 中 继 论坛 ) 上 就 其 他 “多 ”部 分 的 协议 方面 
取得 了 进展 。 有 目前， 这 些 论坛 已 经 整合 到 了 宽带 论坛 (BroadBand Forum, BBF) 上 。 此 外 ， 一些 MPLS 的 标准 化 工作 也 
已 经 由 ITU -了 完成 。 参 见 本 章 参考 文献 [16] ， 可 以 了 解 到 与 ITU -T 早 期 工作 有 关 的 分 组 交换 网 络 中 的 QoS 方面 内 容 
的 概述 。 
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图 4.31 给 出 了 一 个 基于 CR - LDP 和 RSVP-TE 的 简单 设置 路 由 的 示例 。 该 示例 主要 关注 的 是 它们 
之 间 的 相似 之 处 ， 而 不 是 它们 之 间 的 差异 。 请 求 流向 上 游 ， 而 标签 的 分 配 则 在 下 游 进 行 。 除 了 建立 LSP 
之 外 ， 两 种 协议 都 支持 LSP 隧道 重新 路 由 ， 应 用 “ 先 通 后 断 (make - before - break) ”原则 ， 并 提供 抢 
占 选 项 。 


标签 映射 <21, 3> 


标签 映射 <18, 3> 


标签 请 求 <LSR 3> RESV<18, 3> PATH<LSR 3> 


a) 使 用 CR-LDP b) 使 用 RSVP-TE 


E 图 4.31 使 用 CR -LDP 和 RSVP - TE 显示 路 由 设置 的 例子 i DE 
除了 对 组 播 的 支持 外 (这 是 RSVP-TE 的 原 有 特性 ) CR -LDP Al RSVP - TE 之 间 的 差异 是 微 不 足 
道 的 。 简 而 言 之 ， 这 些 都 体现 在 底层 协议 中 (CR -LDP 需要 TCP 或 UDP， 而 RSVP-TE 直接 在 IP bie 
行 )、 安 装 在 LSP 中 的 状态 [CR - LDP 安装 硬 状态 ,而 RSVP-TE (以 其 原始 设计 ) 安装 软 状态 ]; 
LSP 刷新 〈 仅 由 RSVP -TE 执行) 和 安全 选项 (RSVP -TE 有 它 自己 的 认证 机 制 )。 
AMAZ, MPLS 出 现 以 来 不 足 20 年 , 但 已 经 走 过 了 很 长 的 路 。 首 先 ， 它 能 够 与 ATM 和 帧 中 继 交 
换 机 进行 端 到 端 通信 。 它 还 引入 了 一 种 支持 互联 网 流量 工程 的 手段 (Gl, RN. RHR HARRY 
衡 ) ， 加 速 分 组 转发 ， 以 及 为 虚拟 专用 网 的 建立 提供 一 种 连贯 的 原则 (在 下 一 节 将 会 看 到 ) 。 
MPLS 技术 ， 通 过 其 被 称 为 广义 MPLS (Generalized MPLS, GMPLS) 的 扩展 协议 版 本 ， 也 已 经 发 展 
成 可 以 支持 其 他 交换 技术 (例如 ， 那 些 涉及 时 分 复 用 和 波长 交换 的 技术 )。 关 于 这 方面 的 内 容 ， 有 一 本 
具有 权威 性 的 著作 " 。 随 着 开始 讨论 WAN 虚拟 化 技术 (下 一 节 的 主题 )， 需 要 注意 的 是 ，MPLS 已 经 
EEA 
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正如 在 引言 中 提 到 的 ， 虚 拟 数据 网 的 需求 早 于 PDN 时 代 。 事 实 上 ，PDN 的 创建 是 为 了 解决 企业 需 
要 拥有 上 自己 独立 的 专用 网 络 的 需求 。 

为 此 ， 所 有 的 这 些 术 语 “虚拟 化 ”意味 着 ， 在 应 用 到 数据 网 络 时 ， 只 是 将 某 些 东西 放 在 现 有 网 络 
土 的 一 种 环境 ， 作 为 一 个 覆盖 层 ， 实 际 上 就 是 从 其 中 切 出 非 相 交 的 、 同 质 的 专用 网 络 部 分 。 换 名 话说 ， 
这 些 部 分 中 的 每 一 个 都 具有 由 它 对 应 的 专用 网 络 定义 的 寻 址 方案 ， 并 且 它 根据 网 络 策略 进行 操作 。 

构成 VPN 的 端点 的 关联 可 以 在 不 同 的 0SI1 层 上 实现 。 这 里 考虑 了 第 一 层 、 第 二 层 和 第 三 层 VPN, 

图 4. 32 所 示 的 第 一 层 VPN (Layer 一 1 VPN, LIVPN) 框架 和 标准 已 经 由 IETF 和 ITU -T 指 定 。 
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RFC 4847 中 对 该 框架 进行 了 描述 ， 其 中 还 列 出 了 相关 文档 。L1VPN 被 定义 为 “由 核心 第 一 层 网 络 提供 
的 服务 ， 用 于 在 两 个 或 多 个 客户 站 点 之 间 提 供 第 一 层 连 接 ， 并 且 其 中 客户 可 以 对 该 连接 的 建立 和 类 型 
有 一 定 的 控制 ” 。 该 模型 基于 GMPLS 控制 的 流量 工程 链 路 。 因 此 ， 数 据 面 〈 而 不 是 控制 面 ) 是 电路 交 
换 的 。 





作为 客户 设备 的 C 设备 ， 在 作为 VPN; 喘 点 的 客户 边缘 Tpm + Edge, CE) 设备 上 聚合 (图 中 有 
两 个 VPN， 名 称 为 A 和 B)。CE 设备 可 以 是 时 分 复 用 (Time Division Multiplexing, TDM) 交换 机 ， 但 它 
也 可 以 是 第 二 层 交 换 机 ， 甚 至 是 路 由 需 。 定 义 的 CE 设备 功能 是 “能 够 接收 第 一 层 信 令 ， 并 进行 交换 或 
通过 适 配 终止 它 "。 

反 过 来 ，C 设备 连接 到 提供 商 边缘 (Provider Edge, PE) 设备 上 ， 该 设备 是 通过 其 分 配 LIVPN 服 
务 的 提供 商 网 络 的 互 连 点 。PE 设备 可 以 是 TDM 设备 、 光 交叉 连接 交换 机 或 以 太 网 专线 设备 (通过 
TDM 传输 以 太 网 帧 ) 。PE 设备 本 上身 由 交换 机 | 称 为 提供 商 (Provider, P) 设备 ] 互 连 。 

VPN 成 员 关 系 信 息 由 这 组 CE 到 PE GMPLS 链 路 定义 。 即 使 CE 设备 属于 客户 ， 它 们 的 管理 也 可 以 
外 包 给 第 三 方 ， 这 就 是 第 一 层 VPN 的 优点 之 一 。 另 一 个 好 处 是 “小 规模 ”地 使 用 传输 网 络 : 几 个 客户 
共享 物理 层 基 础 设施 ， 而 不 用 投资 建造 它 。 

第 二 层 VPN 有 两 种 。 一 种 是 简单 的 “ 伪 电 路 ”， 它 提供 一 种 点 对 点 的 链 路 层 服务 。 另 一 种 是 类 
LAN 的 ， 因 为 它 提供 了 一 种 点 对 多 点 的 服务 ,将 多 个 LAN 互 连 到 WAN 中 。 这 两 种 都 使 用 了 相同 的 协 
议 来 实现 它们 的 目标 ， 所 以 将 只 讨论 第 二 种 [虚拟 VLAN (Virtual LAN，VLAN)] 使 用 的 这 些 协 议 。 

自 先 ， 虚拟 LAN 有 两 个 方面 。 第 一 个 方面 涉及 将 “真实 的 ”( 非 模拟 的 ) LAN 切割 成 看 似 独立 的 
单独 VLAN。 第 二 个 方面 涉及 用 胶合 替代 切割 ， 处 理 的 是 链 路 层 上 的 连接 LAN, 

图 4. 33 说 明了 VLAN 的 概念 。 执 行 不 同 功能 的 主机 [图 4. 33a 使 用 不 同 的 形状 描绘 ] 共享 相同 的 
物理 交换 LAN。 目 标 是 通过 软件 方式 实现 图 4.33b 所 示 的 逻辑 分 组 ， 其 中 每 个 功能 都 有 自己 的 专用 
LAN, Alt, 逻辑 LAN 甚至 可 以 具有 不 同 的 物理 特性 ， 使 得 例如 多 媒体 终端 获得 更 高 的 带宽 份额 。 

通过 VLAN 感知 交换 机 的 实现 符合 IEEE 802. 1Q 标准 。 交 换 机 识别 表征 帧 所 述 类 别 特 点 的 标签 ， 
并 相应 地 传送 帧 。 

VLAN 可 以 通过 伪 电 路 (如 RFC 3985 PEX) 的 方式 扩展 到 WAN 第 二 层 VPN， 其 中 在 LAN 的 情 
况 下 ， 帧 的 比特 流通 过 分 组 交换 网 传输 。 

图 4. 34 中 重用 了 图 4. 32 中 的 术语 ， 展 示 了 这 一 框架 。 这 里 的 区 别 是 ， 第 二 层 帧 在 模拟 (而 不 是 真 
实 ) 电路 上 通过 PSN 进行 隧道 传输 。 
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b) 逻辑 配置 





Ha 


PE 设备 





可 以 自然 地 在 MPLS 电路 上 建立 伪 电 路 ， 而 不 需要 MPLS 存在 。 存 在 一 种 在 IP 网 络 上 以 第 二 层 隧 
道 协议 (Layer Two Tunneling Protocol, L2TP) 的 形式 承载 链 路 层 分 组 的 较 旧 (并 在 某 种 程度 上 具有 竞 
争 性 的 ) 技术 。 最 初 ， 如 本 章 参 考 文献 [3] 所 述 ，L2TP 是 在 支持 PSTN/ 互 联网 集成 的 第 一 种 机 制 中 
制定 的 ， 可 以 通过 电话 线 连接 主机 和 互联 网 路 由 器 。 它 旨 在 携带 具有 单个 点 对 点 连接 的 PPP 帧 。 现 在 
其 第 3 版 中 ，RFC 3931 中 规定 的 L2TPv3 仍然 保留 了 呼叫 建立 术语 ,但 其 应 用 范围 已 经 扩展 到 支持 基于 
以 太 网 的 VLAN。 

最 后 ， 从 概念 上 来 看 ， 第 三 层 VPN 没有 太 大 的 不 同一 一 也 涉及 隧道 技术 ,但 是 在 第 三 层 上 使 用 而 
已 。 在 这 种 情况 下 ，PE 不 必 处 理 LAN 特定 的 问题 ， 而 是 存在 另 一 组 处 理 重复 地 址 的 问题 。 每 个 第 二 层 
网 络 地 址 卡 都 有 唯一 的 第 二 层 地 址 ; 然而 ， 卫 地 址 不 是 这 样 。 稍 后 ， 当 介绍 网 络 地 址 转换 (Network 
Address Translation, NAT) 设备 时 ， 甚 原因 将 变 得 很 清楚 ， 但 实际 上 两 个 专用 网 络 拥有 重 县 的 一 组 IP 
地 址 是 可 能 的 ， 因 此 提供 商 必须 能 够 消除 它们 的 歧义 。 

RFC 2547 描述 了 一 组 技术 ， 其 中 MPLS 被 用 于 通过 提供 商 的 网 络 进行 隧道 传送 ， 并 且 使 用 路 由 区 
分 字符 串 扩 展 了 BGP 通告 路 由 器 ， 这 可 以 消除 同一 个 PE 中 重复 地 址 的 歧义 。 
另 一 种 方法 是 RFC 2917 中 引入 的 虚拟 路 由 器 架构 。 这 里 ，MPLS 也 被 用 于 隧道 传输 ， 但 不 需要 专 


81 





门 的 路 由 通告 机 制 。 歧 义 消除 是 通过 在 不 同 的 路 由 域 中 使 用 不 同 的 标签 来 实现 的 。 

到 目前 为 止 ，MPLS 在 构建 VPN 方面 ， 尤 其 是 在 文 持 QoS 的 流量 工程 方面 的 作用 和 好 处 是 显 而 易 
见 的 。 现 在 ， 可 以 解释 需要 堆栈 MPLS 标签 的 原因 了 ， 这 正 是 因为 要 满足 VPN 要 求 而 提出 的 。 

图 4. 35a 描述 了 专用 网 络 中 通过 MPLS LSP 互 连 的 两 种 不 同 的 LAN。 现 在 考虑 一 下 另 一 种 使 用 VPN 
的 互通 方案 ， 如 图 4.35b 所 示 。 当 LSP 进入 入口 PE 时 ， 后 者 可 以 推送 自己 的 标签 (保留 原始 标签 ,在 
提供 商 网 络 中 没有 意义 ， 因 此 与 有 效 载荷 一 起 通过 它 进 行 隧道 传输 ) 。 该 标签 在 出 口 PE 处 弹出 ， 因 此 
该 分 组 返回 到 带 有 原始 标签 的 专用 网 络 ， 该 标签 现在 对 其 余 LSP 有 意义 。 


b) 穿 过 提供 商 网 络 的 LSP 









在 讨论 现代 云 数据 中 心 时 ， 将 再 次 提 及 VPN, 


SDN 的 思想 一 一 集中 管理 网 络 ， 在 网 络 一 出 现 就 已 经 存在 了 (可 以 认为 ， 从 人 类 的 一 开始 它 就 已 
经 出 现 了 ， 因 为 它 涉 及 集中 计划 和 管理 的 好 处 ， 与 本 地 自主 管理 的 敏捷 性 和 重 棒 性 相对 ) 。 应 当 弄 清楚 
的 是 ，SDN 的 思想 不 是 一 般 的 集中 管理 ， 而 是 实时 的 路 由 集中 管理 。 

为 此 ， 最初 SDN 的 发 展 与 PSTN 智能 网 (Intelligent Network, IN) 的 发 展 非常 类 似 ”。 电 话 网 络 一 
直 都 是 集中 管理 的 ,但 电话 交换 机 通过 彼此 之 间 的 合作 建立 呼叫 。 在 20 世纪 70 年代， 它们 的 发 展 使 得 
呼叫 建立 通过 单独 的 分 组 网 络 在 语音 话 路 的 带 外 进行 。 到 20 世纪 90 年 代 ， 呼 叫 控制 逐渐 与 全 软件 服务 
控制 分 离 。 后 者 开始 于 简单 的 地 址 转换 (与 互联 网 域名 服务 器 执行 的 不 同 ， 有 关 这 方面 的 内 容 ， 将 在 
本 书后 面 详细 介绍 ) ， 逐 渐 演 变 为 执行 复杂 的 服务 逻辑 程序 。 

该 演进 路 线 正在 导致 交换 机 成 为 简单 的 “交换 架构 ”"， 所 有 其 他 功能 都 转移 到 通用 的 计算 机 中 ， 从 
而 对 呼叫 和 服务 逻辑 进行 完全 控制 ,将 IN 和 网 络 管理 相 结 合 。 电 信 信 息 网 络 联盟 (Telecommunications 
Information Networking Consortium, TINA - C) 在 这 一 愿景 下 已 经 研究 了 7 年 (从 1993 年 到 2000 Æ), 
提供 了 架构 、 规 范 其 至 软件 。 虽然 方向 是 正确 的 ,但 这 一 愿景 却 从 来 都 没有 实现 ,仅仅 是 因为 这 种 
“交换 架构 ”在 互联 网 上 已 被 取消 一 一 它 的 功能 由 LAN 交换 机 “和 了 全 路 由 器 所 承担 。 这 就 是 电话 交换 
机 的 开始 。 

在 20 世纪 90 年 代 后 期 ， 几 个 IETF 工作 组 研究 工作 (详细 描述 在 本 章 参 考 文 献 [3] ) 的 进展 导致 
电话 交换 机 的 明确 标准 被 有 效 地 分 解 成 PSTN FLIP 部分。“ 交 换 ” 是 全 路 由 器 的 功能 。 因 此 ， 软 交换 


O 事实 上 ， 从 20 世纪 80 年 代 贝 尔 实验 室 的 实验 可 以 看 出 ， 电 话 业 务 可 以 部 署 在 以 太 网 的 LAN 上 ， 并 不 需要 其 他 的 “交换 
架构 ” 。1994 年 ， 以 色 列 一 家 公司 ( Vocaltec) 的 Alon Cohen 和 Lior Haramaty 专门 为 语音 (Voice - over — IP, VoIP ) 
收发 器 申请 了 专利 应 用 。 该 专利 于 1998 年 获得 。 
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的 概念 诞生 了 ”， 它 的 名 字 反 映 了 其 可 编程 性 的 想法 ， 自 然而 然 ， 只 需要 通用 业务 的 计算 机 就 可 以 来 控 
制 它 。 在 IETF 传输 领域 ， 由 LuHuilan 博士 带领 会 话 初 始 协议 /智能 网 (Session Initiation Protocol/ Intelli- 
gent Network, SIN) 设计 团队 演示 了 如 何 通过 软 交 换 机 重新 使 用 和 增强 所 有 基于 PSTN 的 业务 。 这 项 工 
作 的 结果 在 很 大 程度 上 被 忽视 ， 因 为 3GPP 正在 进行 一 项 相关 但 更 强大 的 工作 一 一 移动 网 络 IP 多 媒体 
子 系统 (IP Multimedia Subsystem, IMS) 的 标准 化 ， 即 RFC 3976。 在 对 RFC 的 贡献 中 ， 其 主要 作者 Vi- 
jay Gurbani 博士 提供 了 其 部 分 博士 论文 的 研究 成 果 。 随 着 IMS 的 成 功 ， 软 交换 的 名 字 逐 渐 被 人 们 所 痰 
忘 ， 与 软 交换 一 起 的 还 有 业界 对 PSTN 交换 机 的 增强 甚至 维护 方面 所 做 的 努力 。 

随 着 电话 交换 机 的 消失 ， 研 究 人 员 的 注意 力 开 始 转移 到 IP 路 由 器 。 后 者 开始 于 通用 计算 机 ( 例 
如 ， 数 字 设 备 公 司 的 PDP - 10 小 型 计算 机 ， 在 1977 年 已 经 被 BBN 部 署 在 ARPANET 中 ) ， 但 到 2000 
年 ， 它 们 已 经 变 成 由 专 有 操作 系统 控制 的 复杂 的 专用 设备 ” 。 然 后 ， 这 推动 了 将 路 由 器 的 转发 部 分 〈 需 
要 专门 硬件 的 “交换 架构 ”) 与 执行 信 令 和 构建 路 由 表 的 部 分 分 开 。 

2000 Æ, IETF 开始 讨论 转发 和 控制 元 素 分 离 (Forwarding and Control Element Sepa ration, ForCES) 
工作 组 章程 ，2004 年 ，ForCES 框架 作为 RFC 3746 发 布 。 图 4. 36 再 现 了 ForCES 架构 。 








RFC C 5810 在 一 对 网 元 之 间 定 义 了 ITU - TERRASS AL AORE TI HL (或 者 更 确切 地 说 是 多 个 
协议 )。 面 向 事务 的 协议 消息 是 为 协议 层 (Protocol Layer, PL) 定义 的 ， 而 协议 传输 映射 层 (Protocol 
Transport Mapping Layer，ForCES TML) 则 “使 用 现 有 的 传输 层 协议 的 功能 来 专门 解决 协议 消息 传输 问 
题 "。 具 体 的 TML 在 单独 的 RFC 中 定义 。 

到 2010 EHIE, BZA T JLA ForCES 协议 的 实现 ， 在 RFC 6053 中 给 出 了 其 中 三 个 的 报告 并 对 其 
进行 了 比较 。 在 贝尔 实验 室 的 软 路 由 器 项 目 中 ，ForCES 的 发 展 进入 了 一 个 新 的 高 度 。 在 本 章 参 考 文献 
[19] 内 描述 的 软 路 由 器 架构 中 ， 控 制 面 功能 完全 与 分 组 转发 功能 相 分 离 。 没 有 静态 关联 ; FE 和 CE +H 

互动 态 发 现 。 当 亚 启动 时 ， 它 会 发 现 一 组 可 能 控制 它 的 CE， 并 将 其 自己 绑 定 到 “最 佳 的 ”CE Eo X 
种 对 软 交 换 看 似 间 接地 提 及 ， 实 际 上 是 一 个 直接 的 参考 。 正 如 本 章 参考 文献 [19] 的 作者 所 说 :“ 所 提 
出 的 网 络 演进 与 目前 正在 发 生 的 基于 软 交 换 的 语音 网 络 架 构 转 型 有 相似 之 处 。 引 入 软 交换 架构 ， 用 于 
将 语音 传输 路 径 与 呼叫 控制 软件 相 分 离 。 软 路 由 器 架构 旨 在 通过 将 转发 元 与 控制 元 分 离 的 方式 在 路 由 
分 组 网 络 中 提供 类 似 的 迁移 。 与 软 交换 类 似 ， 软 路 由 架构 降低 了 向 网 络 中 添加 新 功能 的 复杂 性 ”。 

接 下 来 的 重要 内 容 是 反映 人 们 普遍 的 学 术 观 点 : 互联 网 架构 日 益 “ 伪 化 ”， 不 可 能 改变 ; 实际 上 ， 
当 没有 大 规模 访问 真实 网 络 进行 实验 的 时 候 ， 很 难 通 过 单纯 的 讲授 让 学 生 们 掌握 实际 网 络 方面 的 知识 。 


加 ”当时 ， 也 是 国际 软 交 换 联 盟 (International SoftSwitch Consortium, ISSC) 的 项 目 。 
O 复杂 性 是 由 不 断 增 长 的 实时 性 要 求 驱动 的 。 特 别 是 ， 转 发 部 分 ( 即 数 据 面 ) 必须 足够 快 ， 不 过 即使 最 快 的 总 线 架 构 也 无 
法 跟 上 需求 的 步伐 。 因 此 ， 许 多 快速 路 由 器 最 终 使 用 好 的 老式 交叉 开关 交换 (纵横 式 交 换 机 ) ， 就 像 电话 交换 机 一 样 。 
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全 球 网 络 创 新 环境 (Global Environment for Network Innovations, GENI) 项 目 已 经 通过 建立 一 个 可 编程 网 
络 的 广泛 项 目 来 解决 了 这 个 问题 ， 可 编程 网 络 使 用 虚拟 化 技术 〈 包 括 网 络 履 盖 ) ， 以 便 人 允许 “网 络 切 
片 ”， 从 而 为 单个 研究 人 员 提 供 看 似 WAN 的 实验 环境 。 

2008 年 ，8 名 研究 人 员 将 其 概念 缩小 到 校园 网 络 ， 发 布 了 他 们 所 谓 的 “白皮书 ”””。 这 篇 文章 的 
建议 被 称 为 OpenFlow。 

人 们 观察 到 ， 当 前 以 太 网 交换 机 和 路 由 器 中 的 流 表 具有 共同 的 信息 ， 因 此 本 章 参考 文献 [20」 的 
作者 提出 利用 这 一 点 ， 以 便 直 接 对 流 表 进行 编程 。 然 后 ， 系 统管 理 员 可 以 通过 划分 业务 流量 并 将 流 表 
中 的 条 目 分 配给 不 同 的 用 户 ， 来 切片 校园 网 络 。 这 样 一 来 ， 研 究 人 员 “ 就 可 以 通过 选择 他 们 的 分 组 所 
跟随 的 路 由 需 及 其 接受 的 处 理 ， 来 控制 他 们 自己 的 流 ”。 通 过 这 种 方式 ， 癸 究 人 员 就 可 以 尝试 新 的 路 由 
协议 、 安 全 模型 、 寻 址 方案 ， 其 至 IP 的 替代 方案 。 

根据 本 章 参 考 文献 [20], HH OpenFlow 环境 如 图 4.37 所 示 ， 有 意 将 该 图 绘制 在 前 一 个 图 的 上 
面 ， 以 展示 其 发 展 的 过 程 。 这 里 ， 在 通用 计算 机 上 实现 的 控制 器 进程 ， 在 交换 机 中 与 其 对 应 的 进程 维 
护 着 一 条 安全 的 传输 层 信道 。 后 一 个 进程 负责 维护 流 表 。 维 护 流 表 的 OpenFlow 协议 在 这 两 个 进程 之 间 
进行 交换 。 


安全 传输 信道 上 的 


OpenFlow 协 议 
Flow% H 








AA NEM: 它 可 以 是 共享 相同 五 元 组 〈 如 综合 服务 中 定义 的 ) 或 VLAN 标签 ， 或 MPLS 
标签 的 分 组 流 。 或 者 它 还 可 以 是 从 给 定 的 第 二 层 地 址 或 他 地 址 发 出 的 分 组 流 。 除 了 定义 流 的 首部 之 外 ， 
流 表 条 目 还 定义 了 要 对 分 组 执行 的 操作 ， 以 及 与 每 个 流 相 关联 的 统计 信息 (分 组 数 、 字 节 数 以 及 自 定 
义 流 的 最 后 一 个 分 组 到 达 的 时 间 ) 。 该 操作 可 以 是 在 特定 接口 上 发 送 分 组 ， 也 可 以 是 将 分 组 丢弃 。 或 
者 ， 在 这 里 ， 将 分 组 发 送 给 控制 器 ， 进 行进 一 步 检查 。 显 然 ， 这 一 功能 对 研究 人 员 有 利 ， 并 且 其 执法 
效果 同样 明显 。 

因此 , 行业 进一步 将 数据 网 络 架 构 转 换 成 完全 可 编程 的 实体 ， 即 在 20 年 的 时 间 内 ， 实 现 IN 和 TI- 
NA -C 计划 。2008 Æ, OpenFlow 联盟 成 立 ， 旨 在 制定 OpenFlow 交换 机 规范 。 本 章 参 考 文献 [20] 报 
告 称 ， 该 联盟 的 成 员 资 格 “面向 全 世界 的 学 校 、 学 院 、 大 学 或 政府 机 构 人 士 都 是 自由 开放 和 免 收 费用 
的 。 然 而 ， 该 联盟 为 了 消除 对 供应 商 的 影响 ， 限 制 了 那些 “ 非 受 雇 于 生产 或 出 售 以 太 网 交换 机 、 路 由 
圳 或 无 线 访问 点 公司 ”的 个 人 成 员 。2011 年 ， 这 种 情况 发 生 了 变化 ， 该 联盟 的 工作 由 开放 网 络 基金 会 


O ”该 文 是 提交 给 ACM 计算 机 通信 评论 的 一 篇 社论 ， 没 有 经 过 同行 评审 。 
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(Open Networking Foundation, ONF) 所 接管 ， 该 基金 会 拥有 庞大 且 多 样 化 的 企业 成 员 ， 包 括 网 络 运营 
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网 络 安全 有 很 多 方面 ， 本 书 将 持续 讨论 这 一 问题 不 断 介 绍 新 的 内 容 。 简 单 提 一 下 后 面 几 章 涉 及 
的 此 类 相关 内 容 ， 有 防火 墙 (这 是 卫 流 量 的 “检查 站 ”") ， 还 有 网 络 地 址 转换 (Network Address Trans- 
lation, NAT) 设备 《〈《 它 的 目的 是 隐藏 网 络 的 内 部 结构 ， 通 常 与 防火 墙 组 合 使 用 ) 。 然 后 ， 还 有 一 些 访 问 
管理 机 制 ， 以 及 不 同 的 0SI 各 层 加 密 机 制 。 这 里 强烈 推荐 读者 参阅 本 章 参 考 文献 [21] ， 它 是 一 本 内 容 
全 面 的 网 络 安全 方面 的 专著 。 鉴 于 本 章 关 注 的 主要 是 网 络 层 方面 的 内 容 ， 因 此 本 书 将 只 讨论 一 个 方面 
HAR: 正安 全 性 。 

在 最 初 设计 IP 时 ,不 需要 考虑 安全 性 ， 所 以 IP 分 组 从 源 地 址 到 目的 地 址 都 是 以 明文 的 形式 目 由 穿 
梭 于 互联 网 之 上 。 只 要 互联 网 是 面向 研究 人 员 的 网 络 或 研究 人 员 使 用 的 网 络 ， 那 么 这 种 情况 就 没有 问 
题 〈 至 少 他 们 认为 是 没有 问题 的 ) 。 

事实 是 ,广播 网 络 上 的 任何 人 或 访问 交换 机 ) 都 可 以 完 视 分 组 中 的 内 容 〈 如 果 只 是 为 了 获知 别 
人 的 密码 ); 具有 更 先进 手段 的 人 还 可 以 更 改 或 重 放 分 组 。 此 外 ， 任 何人 都 可 以 轻松 地 将 任意 具有 伪造 
源 IP 地 址 的 分 组 注入 到 网 络 中 。 

AIHE TERA IP ZÆ (IP security, IPsec) 的 协议 族 ， 用 于 在 网 络 层 提供 安全 服务 。 在 网 络 层 设 
计 安 全 性 的 一 个 重要 原因 是 ， 现 有 的 应 用 程序 可 以 保持 不 变 ， 而 新 的 应 用 程序 仍然 可 以 在 人 们 无 须知 
道 相关 复杂 性 的 情况 下 进行 开发 。 在 之 下 层次 的 安全 性 处 理 方 面 ， 只 提供 了 一 种 逐 跳 解决 方案 ， 这 是 
由 于 端 到 端 路 径 中 的 路 由 器 原因 (对 于 传输 层 的 安全 性 处 理 ， 最 初 被 认为 是 多 余 的 。 并 且 如 果 网 络 没 
有 被 “破坏 " ， 人 们 将 仍然 认为 这 样 做 是 多 余 的 ， 这 在 后 面 将 表现 得 比较 明显 ) 。 

IPsec 在 一 组 IETF RFC 中 规定 ， 其 关系 如 图 4.38 所 示 。 了 解 这 种 关系 对 IPsec 的 实际 使 用 很 重要 ， 
因为 它 提 供 了 可 以 混合 和 匹配 以 满足 特定 需求 的 多 种 服务 〈 认 证 、 机 密 性 保护 、 完 整 性 保护 和 防 重 放 ) 。 


AH: 认证 首部 
ESP: 封装 安全 有 效 载 荷 
IKE: 互联 网 密 钥 交换 





ee (SUARSSE [22], ny ITIER TET 
为 这 些 服务 提供 了 基础 。 为 此 ，IPsec 支持 一 系列 的 加 密 算法 ， 目 的 是 让 两 个 相关 端点 具有 共同 支 
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持 的 算法 的 可 能 性 最 大 化 ” 。 它 还 允许 在 新 算法 出 现时 增加 新 的 算法 ， 从 而 替代 被 发 现 有 和 缺陷 的 算法 。 
例如 ，RFC 7321 中 规定 的 最 新 的 加 密 算法 IPsec 要 求 ， 考 虑 到 数据 加 密 标准 (Data Encryption Standard, 
DES) 的 弱点 ， 强 制 要 求 支 持 高 级 加 密 标准 (Advanced Encryption Standard，AES) ， 并 考虑 到 消息 摘要 
5 (Message Digest 5, MDS) 的 弱点 ， 强 制 要求 支 持 基 于 安全 哈 布 算法 -1 (Secure Hash Algorithm - 1, 
SHA -1) 的 用 于 消息 认证 的 密 钥 蛤 希 (Keyed - Hashing for Message Authentication, HMAC), AFRI H, 
全 面 且 最 先进 的 加 密 技 术 在 今天 看 来 似乎 是 自然 而 然 的 事情 ， 但 实际 上 这 需要 很 多 年 才能 实现 ， 这 在 
一 定 程度 上 是 因为 不 同 国家 的 政府 限制 。 密 码 学 一 直 被 认为 是 军事 资源 的 一 部 分 ， 它 的 出 口 受 到 政府 
的 管制 。 商 业 和 民用 用 户 ， 如 果 没 有 被 禁止 使 用 加 密 技 术 ， 那么 他 们 仅 限 于 使 用 较 弱 且 存 在 不 足 的 算 
法 。 一 些 政府 甚至 要 求 密 钥 托管 ( 即 向 当局 披露 密 钥 )。 鉴 于 互联 网 的 全 球 性 质 ， 这 种 情况 无 助 于 互联 
网 安全 ， 并 且 促 使 ETF 发 布 信息 REC 以 表达 他 们 的 担忧 。 该 RFC 被 分 配 的 编号 特意 定 为 1984” 。 

IPsec 的 核心 是 安全 关联 概念 。 安 全 关联 是 一 种 加 密 保护 的 单 工 端 到 端 会 话 。 因 此 ， 双 问 会 话 至 少 
需要 两 个 安全 关联 。 建 立 一 个 安全 关联 涉及 产生 加 密 密 钥 ， 选 择 算法 ， 并 选择 不 同 的 参数 。 在 单 播 中 ， 
安全 关联 可 通过 被 称 为 安全 参数 索引 (Security Parameters Index, SPI) 的 参数 进行 识别 。 

IPsec 由 两 部 分 组 成 : 安全 关联 管理 和 分 组 转换 。 安 全 关联 管理 部 分 处 理 IPsec 端点 验证 ， 然 后 建 
立 和 维护 安全 关联 。 这 里 的 一 个 基本 的 步骤 是 ， 安 全 服务 的 协商 和 相关 安全 参数 的 协议 。 整 个 过 程 在 
IPsec 会 话 开始 时 执行 ， 然 后 一 段 时 间 后 ， 进 行 现场 检查 。 相 应 的 协议 是 复杂 的 ， 它 的 定义 已 经 经 历 了 
多 次 迭代 。 它 当前 的 版 本 ,互联 网 密 钥 交换 协议 版 本 2 (Internet Key Exchange Protocol version 2, 
IKEv2) 规定 在 RFC 7296 中 。 为 了 生动 地 说 明 IKE 的 工作 原理 (以 及 它 应 该 如 何 工 作 ) ， 本 章 参考 文献 
[21] 提供 了 详细 的 描述 。 , 

分 组 转换 部 分 处 理 每 个 分 组 事先 约定 的 加 密 算 法 的 实际 应 用 。 这 个 任务 有 两 个 不 同 的 协议 (遗憾 
的 是 ， 这 反映 出 了 人 们 都 想 推出 目 己 的 标准 ， 而 忽略 了 实际 应 用 的 必要 性 ) 。 一 个 协议 ， 被 称 为 认证 半 
部 (Authentication Header, AH), Æ RFC 4302 中 定义 。AH 提供 了 无 连接 的 完整 性 保护 、 数 据 源 认证 和 
防 重 放 服务 。 该 协议 不 提供 机 密 性 保护 。 

相 比 之 下 ,第 二 个 协议 ，RFC 4303 中 定义 的 封装 安全 有 效 载 集 ( Encapsulating Security Payload, 
ESP) 协议 ,确实 提供 了 机 密 性 保护 以 及 其 他 所 有 的 安全 服务 。 因 此 ，ESP 的 应 用 比 AH 要 广泛 得 多 。 
ESP 是 计算 密集 型 的 ， 因 为 它 需 要 执行 所 有 的 这 些 加 密 工 作 。 可 以 使 用 硬件 加 速 ， 由 于 操作 系统 最 了 
解 如 何 处 理 这 种 硬件 ， 因 此 在 主要 的 操作 系统 中 ，ESP 已 经 被 实现 成 为 这 类 操作 系统 内 核 的 一 部 分 。 

通过 ESP， 可 以 在 3 种 情况 下 进行 安全 通信 ， 如 图 4. 39 所 示 。 





图 4:39 IPsec 应 用 情况 č 


O NULL 加 密 算 法 ， 顾 名 思 义 ， 它 的 加 密 方式 就 是 为 了 开发 人 员 的 方便 起 见 而 被 包含 在 内 的 。 它 甚至 有 自己 的 RFC 2410, 
感 兴趣 的 读者 可 以 阅读 一 下 ( 引 语 :“ 尽 管 有 传言 说 ， 国 家 安全 局 禁止 发 布 这 种 算法 ,但 是 没有 证 据 表 明 他 们 这 样 做 了 。 
相反 ， 最 近 的 考古 证 据 证 明 ，NULL 算法 创建 于 罗马 时 代 ， 被 视 为 凯撒 密码 的 一 种 输出 形式 ”) 。 

OQ ”作为 对 RFC 1984 的 回应 ，IETF 后 来 发 布 了 RFC 2804， 声 明了 对 窃听 标准 的 立场 。 
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第 一 种 情况 是 主机 到 主机 。 两 个 相互 认证 的 主机 通过 互联 网 使 用 它们 的 公 网 卫 地 址 彼此 建立 会 话 。 
外 部 人 员 无 法 窃听 或 改变 它们 之 间 的 通信 分 组 流 ， 就 好 像 使 用 专用 通信 线路 一 样 。 

第 二 种 情况 是 主机 到 网 关 。 远 程 主 机 通过 互联 网 连接 到 企业 网 络 的 安全 网 关 。 网 关 可 以 访问 网 络 
中 的 所 有 其 他 机 做 ， 因 此 隧道 一 旦 建立 ， 远 程 主机 也 可 以 与 它们 进行 通信 。 这 种 情况 是 典型 的 企业 
VPN 访问 (暂时 回顾 一 下 VPN 方面 的 内 容 ， 正 是 这 种 机 制 ， 实 现 了 安全 的 IP - over -IP VPN。 专 用 电 
话 线 路 在 这 里 被 IPsec WRI TEEN) 。 与 第 一 种 情况 一 样 ， 其 中 的 业务 流量 受到 保护 ， 但 是 与 第 一 种 情 
况 不 同 的 是 ， 该 主机 可 以 拥有 为 一 个 IP 地址， 该 地 址 仅 在 企业 内 部 发 挥 重要 作用 。 在 这 种 情况 下 ， 网 
ALA PIT IP 地址， 一 个 用 于 互联 网 其 余部 分 的 主机 ， 一 个 用 于 企业 。 在 下 一 章 讨论 了 NAT 之 后 ， 这 
一 扩 的 意义 将 会 变 得 很 清楚 。 

第 三 种 也 是 最 后 一 种 情况 是 网 关 到 网 关 。 两 个 远程 企业 园区 网 络 在 互联 网 上 通过 它们 各 自 的 安全 
网 关 被 结合 成 一 个 整体 。 这 种 情况 与 云 计 算 特 别 相 关 ， 因 为 两 个 数据 中 心 可 以 用 完全 相同 的 方式 进行 
互 连 。 在 本 质 上 ， 这 种 情况 类 似 于 第 二 种 情况 ， 唯 一 的 区 别 是 ， 隧 道 承 载 聚 合 而 不 是 特定 主机 的 业务 
流量 。 

IPsec 文 持 两 种 操作 模式 : 传输 和 隧道 。 在 传输 模式 下 ， 每 个 数据 分 组 只 有 一 个 IP 首部 ， 并 且 IP- 
sec HHP (AH 或 ESP) 就 在 其 后 插入。 为 了 指示 IPsec 首部 的 存在 ，IP 首部 的 协议 字段 采用 AH 或 ESP 
的 协议 号 。 图 4. 40 描述 了 IPv4 传输 模式 下 IPsec 的 分 组 结构 。 对 于 AH 分 组 ， 完 整 性 检查 仅 在 IP 首部 
中 的 不 变 字段 上 进行 ， 例 如 版 本 、 协 议和 源 地 址 字段  。 完 整 性 检查 值 作 为 认证 首部 的 一 部 分 ， 该 首部 
中 还 包含 SPI 和 序列 号 。SPI 用 作 安 全 关联 数据 库 条 目的 索引 ， 该 条 目 包 含 用 于 验证 的 AH 分 组 的 参数 
(例如 ， 消 县 认证 算法 和 密 钥 ) 。 每 个 分 组 唯一 的 序列 号 的 目的 是 用 于 重 放 保 护 。 需 要 注意 的 是 ，IPsec 
首部 不 包含 有 关 正 在 使 用 的 模式 方面 的 信息 ， 该 信息 存储 在 安全 关联 数据 库 中 。 


对 不 变 字 段 的 验证 


TE 有 效 载荷 





mE 


ICV: 完 整 性 检查 值 
SPI: 安 全 参数 索引 











a ny 
容 。 此 外 ， 完 整 性 检查 值 不 作为 ESP 首部 


对 于 ESP 分 组 ， 完 整 性 检查 覆盖 了 P 首部 之 外 的 所 有 
的 一 部 分 。 它 在 一 个 单独 的 字段 中 提供 。 
在 隧道 模式 下 ， 有 两 个 IP 首部: 携带 最 终 IP 源 地 址 和 目的 地 址 的 “内 部 ”IP 首部 ， 以 及 携 囊 正 - 
sec Jin AHH) “Shab” IP 首部 。 图 4.41 描述 了 相应 的 分 组 结构 [图 4.41a 有 一 定 的 说 明 意 义 ， 但 不 
完全 正确 。 除 了 所 示 的 不 变 字段 之 外 ， 还 有 其 他 不 变 字段 ， 例 如 源 IP Heh] 


O 这 里 有 一 个 严重 的 复杂 问题 ， 它 是 由 NAT 引起 的 ， 因 此 ， 稍 后 在 讨论 这 些 问题 的 时 候 再 对 其 加 以 讨论 。 
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| 外 部 P 首 部 | 内 部 IP 首 部 有 效 载荷 


=< 


外 部 IP 首 部 





ICV: 完 整 性 检查 值 
SPI: 安 全 参数 索引 





=- 


考虑 到 ESP 可 以 做 所 有 AH 能 做 的 事情 ,但 AH 却 不 能 做 所 有 ESP 能 做 的 事情 ， 因 此 人 们 想 知 道 
AH 的 价值 何在 。 一 种 观点 是 ，AH 通过 保护 IP 首部 本 身 提供 了 略微 更 多 的 保护 。 必 一 种 观点 是 ，AH 
与 防火 墙 的 配合 更 好 〈 稍 后 再 讨论 这 方面 的 内 容 )。 还 有 一 些 其 他 的 观点 ， 但 最 终 最 重要 的 是 : 使 用 
IPsec 的 主要 原因 是 机 密 性 保护 ， 而 这 不 是 AH 可 以 提供 的 服务 。 就 IPsec 方案 而 言 ， 传 输 模式 适用 于 第 
一 种 情况 ， 而 隧道 模式 则 适用 于 其 他 情况 。 

到 目前 为 止 , 已 经 讨论 了 IPv4 下 IPsec 的 操作 。 只 能 说 IPv6 下 IPsec 的 操作 与 IPv4 下 并 没有 太 大 的 
区 别 ， 当 然 ， 除了 首部 。 鉴 于 本 书 篇 幅 有 限 ， 不 能 深入 研究 IPv6 的 复杂 性 内 容 。 再 一 次 强调 ， 本 章 参 
考 文献 [21] 在 这 方面 提供 了 翔实 的 内 容 ， 阅 明了 IETF 策略 的 各 个 方面 。 | 
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这 里 描述 的 所 有 设备 都 是 现代 数据 中 心 的 组 成 部 分 。 它 们 既 支 持 网 络 边界 的 构建 ， 又 支持 应 用 部 
车 。 以 物理 和 虚拟 的 形式 ， 它 们 还 支持 云 计 算 ， 因 为 网 络 是 其 基本 组 件 。 

5. 1 区 描述 的 第 1 种 关键 网 络 设备 是 域名 系统 (Domain Name System, DNS) 服务 右 。 为 了 访问 互 
联网 上 的 任何 资源 〈 网 页 、 邮 箱 、 网 络 电话 ) ， 人 们 最 终 需要 指定 资源 的 卫 地 址 。 然 而 ， 应 用 不 应 该 





知道 资源 的 卫 地 址 〈 且 很 少 这 么 做 ) 。 相 反 ， 它 使 用 资源 定位 符 一 一 根据 应 用 层 命名 方案 指定 的 字符 
串 。 然 后 ， 定 位 器 将 被 DNS 实时 转换 为 相关 的 IP 地 址 。 这 种 解决 方案 的 优势 是 除了 支持 人 们 易 记 的 名 
称 之 外 ， 它 还 文 持 资源 移动 性 ， 且 可 用 于 支持 弹性 以 及 用 于 负载 均衡 。 也 就 是 说 ， 在 多 个 执行 同一 操 
作 的 服务 需 之 间 分 配 工 作 量 。 但 是 ， 转 换 服 务 并 非 DNS 的 唯一 优点 ， 它 还 可 用 于 服务 发 现 ， 这 使 得 
DNS 基础 设施 对 于 网 络 和 云 计 算 尤 为 重要 。 

本 章 中 摘 述 的 第 2 种 设备 称 为 防火 墙 。 防 火 墙 是 保障 安全 的 主要 手段 ， 特 别 是 在 网 络 隔离 和 保护 
方面 。 

接 下 来 讨论 的 第 3 种 设备 是 网 络 地 址 转换 (Network Address Translation, NAT) 设备 。 该 设备 对 于 
组 网 来 说 必 不 可 少 ， 但 业界 仍 存 有 争议 ， 主 要 用 于 解决 快速 耗 尽 的 IPv4 地 址 空间 问题 。 虽 然 网 络 地 址 
转换 几乎 完全 在 防火 墙 中 实现 ,但 其 功能 却 不 尽 相 同 。 

在 本 革 的 最 后 ， 简 要 回顾 了 负载 均衡 器 设备 ， 它 在 很 大 程度 上 支持 云 的 弹性 。 由 于 本 书 篇 幅 有 限 ， 
因而 仅 讨论 了 由 DNS 服务 器 执行 的 不 同 风格 的 负载 均衡 。 


5.1 域名 系统 


开发 域名 系统 (DNS) 的 主要 动力 来 自 于 电子 邮件 ， 或 者 是 其 特定 的 实现 。 虽 然 自 20 世纪 60 年 代 
中 期 以 来 电子 邮件 就 一 直 作 为 一 种 服务 存在 ， 但 需要 强调 的 是 ，Ray Tomlinson 在 为 TENEX 操作 系统 开 
发 电子 邮件 包 时 ， 定 义 了 一 种 资源 定位 器 ， 形 式 为 <user > @ <host > ， 其 中 “@ ”字符 用 于 将 ASCII 
( American Standard Code for Information Interchange， 美 国信 息 交 换 标 准 代 码 ) 编码 的 用 户 名 和 主机 名 分 
隅 开 来 。 这 种 形式 的 寻 址 于 1972 年 在 阿 帕 网 (ARPANET) 中 变 成 标准 ， 当 时 电子 邮件 支持 被 并 人 到 文 
件 传 输 协 议 ( File Transfer Protocol, FTP) 中 ， 并 体现 在 RFC 385 中 。 

当然 ， 为 了 使 电子 邮件 正常 发 挥 作用 ， 必 须 将 主机 名 转换 成 正确 的 了 P 地 址 。 每 台 主 机 都 保存 了 一 
份 转换 文件 的 副本 ， 这 在 当时 (1971 年 ) 自然 不 是 什么 大 问题 ， 因 为 阿 帕 网 (ARPANET) 中 只 有 23 
台 主 机 。 但 是 ， 两 年 后 (1973 年 ) Peter Deutsch 在 RFC 606 中 写 道 : “既然 我 们 拥有 了 主机 名 的 正式 
列表 ， 似 乎 是 时 候 该 结束 这 种 荒 雇 状况 了 ， 即 为 了 使 用 自己 的 操作 系统 或 用 户 程序 ， 网 络 上 每 个 站 点 
都 必须 维护 一 个 不 同 的 (通常 是 过 时 的 ) 主机 列表 。” 

事实 上 ， 这 种 “ 充 座 状况 ”已 经 结束 了 。 在 用 于 响应 RFC 606- 所 写 的 几 份 RFC (Request For Com- 
ments， 请 求 注解 ) 之 后 ,发布 于 1974 年 3 月 7 日 篇 幅 只 有 1 页 的 RFC 625 证 实 ， 斯 坦 福 研究 所 (现在 
成 为 SRI 公司 ) 将 保存 主机 转换 文件 的 主 副本 (PRA HOST. txt)， 它 对 其 他 主机 来 说 是 可 用 的 。RFC 
625 坚持 认为 : 山 文件 以 ASCH 文本 形式 保存 ; @@ 使 用 FTP 来 访问 文件 。 


O HH, RFC 系列 看 起 来 不 仅 提供 信息 或 提出 要 求 ， 而 且 还 可 为 开发 社区 充当 讨论 媒介 .。 
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7 年 后 ， 这 一 解决 方案 也 开始 看 起 来 非常 荒唐 ， 但 有 一 个 非常 不 同 的 原因 。 罪 魁 祸首 是 电子 邮件 寻 
址 系统 ， 现 在 已 经 实现 了 标准 化 。 在 该 系统 中 ， 发 件 人 必须 将 整个 中 继 路 径 提 供给 接收 机 2 。 这 一 过 程 
不 仅 有 麻烦 ， 而 且 对 于 任何 人 来 说 ， 当 给 定 路 径 失 几时， 要 找到 正确 的 路 径 在 技术 上 是 不 可 能 的 。 

DNS 的 历史 可 追溯 到 1982 年 1 月 11 日 ， 当 时 有 22 位 互联 网 工程 师 参加 了 Jon Postel” 召集 的 一 次 
会 议 ,“ 主 要 讨论 ARPA (Advanced Research Project Agency， 高 级 研究 项 目 局 ) 互联 网 文本 邮件 系统 中 
的 一 些 具 体 问 题 "。 上 述 引 用 来 自 RFC 805 ， 该 文档 详细 记录 了 当时 的 讨论 和 决定 。 文 档 提 到 的 第 一 个 
具体 问题 是 电子 邮件 的 中 继 ，RFC 列 出 了 若干 个 提案 ， 指 出 “此 次 讨论 中 出 现 的 一 个 有 趣 的 想法 是 邮 
箱 标 识 符 的 user@ host 模型 原则 上 应 当 可 以 被 unique - id@ location — id 模型 所 替换 ， 其 中 unique -id 是 
该 邮箱 的 全 局 唯一 标识 符 (Globally Unique Identiffier，GUID ) ， 它 与 位 置 无 关 ， 且 location - id 是 在 何 处 


发 现 邮 箱 的 建议 。” 这 一 想法 没有 得 到 追捧 ， 因 为 “... ... user@ host 模型 为 大 家 广 为 接受 已 经 是 不 争 
的 事实 …… 所 以 “用 户 ， 域 的 诸多 不 同 阐述 已 经 被 使 用 。”。 


然而 ， 大 家 一 致 认为 :“ 当前 的 user@ host 邮箱 标识 符 应 当 扩 展 到 user@ host. domain, HP domain 
可 以 是 域 的 层次 结构 。 特 别 地 ,，“ 主机 ”字段 将 成 为 “位 置 ” 字 段 ， 且 结构 将 从 最 具体 到 最 通用 的 方 
AER (从 左 到 右 ) 。” 这 是 专用 数据 库 (域名 服务 器 ) 的 职责 ， 用 于 存储 与 域 相关 的 信息 ， 并 在 查询 
时 提供 信息 。 在 这 一 愿景 中 ， 最 显著 的 部 分 是 〈 且 在 我 们 看 来 ， 目 前 仍然 是 ) 将 服务 与 提供 该 服务 的 
主机 分 离开 来 的 概念 。 最 终 ，25 年 后 ， 这 一 愿景 促使 了 万 维 网 (World Wide Web, WWW) 的 实现 ， 接 
4 ke IP HAG, IPTV (IP Television, IP 电视 ) 以 及 最 终 云 的 实现 。 仅 将 电子 邮件 作为 坚实 的 参考 点 ， 设 
想 一 种 支持 众多 抽象 服务 的 系统 是 符合 “ 弗 拉 基 米尔 ' 纳 博 科 夫 (Vladimir Nabokov) ”小 说 《礼物 》 
中 给 出 的 天 才 定 义 :“ 天 才 是 能 够 凭空 想象 出 雪 的 非洲 人 。”REFC 882 宣称 : “我 们 应 该 能 够 使 用 名 称 来 
获取 主机 地 址 、 邮 箱 数 据 和 其 他 迄今 为 止 尚未 确定 的 信息 。 

关于 所 设想 的 查询 ， 确 定 了 3 种 独立 服务 ， 但 协议 是 只 有 这 些 服 务 中 的 一 种 服务 (将 主机 名 位 置 
ID 转换 为 相应 IP 地 址 的 服务 ) 至 关 重 要 。 大 家 还 认识 到 ， 域 名 服务 器 可 以 返回 其 他 信息 (如 主机 上 使 
用 邮件 过 程 中 的 信息 ) ， 虽 然 这 些 信 息 也 可 以 通过 其 他 方式 来 获得 。 

关键 的 以 构 决 策 是 针对 名 称 查询 的 集中 式 对 分 布 式 实现 问题 做 出 的 :“ 事 实 是 为 每 个 域 分 配 独 立 服 
务 需 具有 管理 和 维护 方面 的 优势 ， 但 是 中 央 服 务 右 可 能 是 有 用 的 第 一 步 。 人们 还 认识 到 ， 应 该 将 每 种 
不 同 的 数据 库 复 制 知 干 次 ， 且 可 以 从 不 同 的 服务 器 获得 ， 用 于 和 鲁 棒 性 和 可 靠 性 服务 。” 在 该 文档 
(RFC882) 中 ， 递 归 域 名 服务 器 首次 以 实例 情境 的 形式 出 现 : 

“假设 新 邮箱 规范 的 格式 为 USER@ HOST. ORG. DOMAIN, ， 如 Postel@ F. ISL IN。 向 该 地 址 发 送 邮 件 
的 源 主机 首先 查询 域 IN 的 域名 服务 器 (给 出 整体 位 置 F. ISL IN ) 。 查 询 的 结果 要 么 是 目标 主机 的 最 终 
地 址 (F. II) ， 要 么 是 ISI (Information Sciences Institute， 美 国信 息 科 学 研究 所 ) 域名 服务 器 的 地 址 ， 
要 么 是 ISI 转发 毅 的 地 址 。 在 第 1 和 第 3 两 种 情况 下 ， 源 主机 将 邮件 发 送 到 返回 的 地 址 。 在 第 2 种 情况 
中 ， 源 主机 查询 ISI 域名 服务 器 并 ... (递归 调用 本 段 ) 。 

由 于 1982 年 1 月 1 日 Jon Postel 召集 的 会 议 对 系统 提出 了 一 些 关 键 需求 ， 因 而 RFC 882 和 RFC 883 
分 别 对 系统 的 设计 原则 和 实施 考虑 进行 了 规范 。 这 些 RFC 文档 均 是 由 Paul Mockapetris 起 草 的 ， 他 负责 
设计 DNS 的 任务 。 这 两 份 文档 ” 均 于 1983 年 11 月 发 布 ， 同 时 Jon Postel 发 布 了 项 目 管理 文档 一 一 RFC 
881, ， 计 划 推 出 阿 帕 网 ( ARPANET) 中 的 DNS， 并 在 1 年 后 (1984 年 12 H) 停止 维护 HOST. TXT 
文件 。 

DNS 软件 第 1 版 一 一 伯克利 互联 网 域名 (BIND) ， 是 由 加 州 大 学 伯克利 分 校 发 布 的 。BIND 的 后 期 
版 本 由 数字 设备 公司 (Digital Equipment Corporation, DEC) 编写 。 最 终 ，BIND 的 发 展 并 入 到 互联 网 系 


© 1981 Æ, Jon Postel 在 RFC 788 中 发 布 了 简单 邮件 传输 协议 (Simple Mail Transfer Protocol, SMTP) 第 1 版 。 通 过 明确 指定 
中 继 路 径 来 实现 电子 邮件 的 中 继 。( RFC 给 出 了 “TO:;” 字 有 段 的 实例 为 : <@A, @B, C@D,) 

© Postel 博士 和 Mockapetris 博士 是 领导 域名 系统 (DNS) 开发 的 两 个 人 。 因 此 ， 总 体 思 想 和 概念 显然 是 由 Postel 博士 提出 
来 的 ， 而 Mockapetris 博士 负责 设计 和 后 续 项 目 管理 。 

O 实际 上 ， 这 一 想法 是 将 地 址 变 成 两 个 标识 符 的 组 合 : 统一 资源 名 称 (Uniform Resource Name, URN) 一 一 邮箱 的 唯 二 电 
子 邮 件 标 识 符 以 及 统一 资源 定位 符 ( Uniform Resource Locator, URL), 很 快 就 会 看 到 ， 这 些 标识 符 后 来 是 被 独立 开发 的 。 

国 ” 这 些 RFC 文档 已 经 被 RFC 1034 和 RFC 1035 取代 。. 
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统 协会 (Internet Systems Consortium, ISC) 中 。 目 前 ，BIND 是 一 个 开源 项 目 。 

在 随后 几 年 中 ， 这 些 标准 及 其 实现 方案 不 断 演 进 ， 但 这 些 变化 是 渐进 的 ， 除 了 安全 性 方面 的 一 
主要 变化 。 事 实 上 ， 安 全 性 起 初 既 不 是 一 项 要 求 ， 又 不 是 一 个 问题 (而 可 扩展 性 是 )。 因 此 ， 安 全 性 是 
一 个 附加 项 。 遗 憾 的 是 ， 可 以 将 安全 性 指定 为 利用 严重 漏洞 后 的 一 种 反应 。2005 年 ，IETF ( Internet 
Engineering Task Force， 互 联网 工程 任务 组 ) 发 布 了 一 种 名 为 DNSSEC (Domain Name System Security Ex- 
tensions ， 域 名 系统 安全 扩展 ) 的 安全 解决 方案 ( 稍 后 将 会 对 其 进行 详细 讨论 ) ， 尽 管 部 署 方式 存在 严 
重 问题 。DNSSEC 也 只 是 部 分 解决 方案 。 正 如 将 要 看 到 的 那样 ， 防 火 墙 可 以 应 对 诸多 威胁 ， 但 仍然 依赖 
于 (而且 还 将 依赖 于 ) 网 络 提供 商 及 其 客户 对 安全 实践 的 一 致 实现 方案 。 为 此 ， 云 可 以 一 致 地 实现 和 
执行 安全 策略 。 

本 节 的 剩余 部 分 将 介绍 域名 系统 的 架构 和 操作 ， 然 后 再 重点 介绍 顶级 域名 分 类 和 域名 的 国际 化 问 
A. Bia — NEHER SAMAR RAR SD 展 DNSSEC). 


5.1.1 架构 和 协议 te 


RARE (DNS) 架构 的 组 件 如 图 5.1 所 示 。 最 接近 终端 用 户 的 组 件 是 用 于 应 用 进程 查询 的 解析 
器 。 解 析 器 有 望 成 为 〈 且 通常 是 ) 操作 系统 的 一 部 分 ， 因 而 在 程序 进程 和 解析 器 之 间 不 存在 协议 ， 且 
解析 器 是 针对 两 者 之 间 的 接口 定义 的 。 这 是 一 个 应 用 程序 接口 问题 。 








反 过 来 ， 解析 器 通过 查询 一 台 或 多 台 域名 服务 器 来 获取 进程 所 需 的 信息 。 将 响应 点 存 储 在 本 地 缓存 
中 ， 因 为 期 望 特定 域 中 存在 多 个 资源 引用 是 非常 自然 的 。 缓 存 将 信息 保持 一 段 时 间 ， 但 不 超过 它 所 存 
储 的 记录 生存 时 间 (Time To Live, TTL) 参数 值 。 当 查询 到 达 人 解析 器 时 ， 它 首先 检查 高 速 缓存 中 是 否 
有 记录 。 如 果 没 有 ， 则 解析 器 开始 使 用 DNS 协议 [顺便 一 提 ， 通 过 UDP (User Datagram Protocol, ， 用 户 
数据 报 协 议 ) 操作 ,使 用 标准 端口 50° ] 来 查询 域名 服务 器 。 

域名 服务 器 实现 了 域名 空间 ， 且 它们 包含 与 域名 相关 的 资源 记录 。DNS 是 针对 命名 空间 随时 间 而 
出 现 的 指数 级 增长 。 因 此 ， 域 名 空间 的 实现 方案 采用 了 树 结构 。 正 如 RFC 1034 所 述 ，“ 从 概念 上 讲 ， 
域名 空间 树 的 每 个 节点 和 叶子 均 命 名 了 一 组 信息 ， 且 查询 操作 试图 从 特定 集合 中 提取 特定 类 型 的 


O ”对 于 长 查询 来 说 ， 通 常 使 用 TCP (Transfer Control Protocol ， 传 输 控 制 协议 ) ， 但 这 是 一 个 例外 。 
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图 5. 2 E— AG HR RE SX Sa UR is Bh oe Sh as TRE (AKR) 进行 处 理 ， 且 将 该 域名 
服务 做 称 为 该 区 域 的 权威 〈 或 授权 域名 服务 器 ) 。 除 了 提供 与 区 域 相 关 的 信息 之 外 ， 域 名 服务 器 还 提供 
其 他 域名 服务 句 的 地 址 (在 其 区 域 之 外 )。 


ae 


fom | 记录 





en 


RS | 











O eee 
另 一 分 支 。 根据 REC 1034 文档 , “数据 库 在 特定 
机 构想 要 接管 子 树 控制 权 的 点 进行 分 区 。 一 旦 机 构 控制 了 自己 的 区 域 ， 则 它 可 以 单方 面 更 改 区 域 中 的 
数据 ， 增 加 连接 到 区 域 的 新 树 部 分 ， 删 除 现 有 节点 ， 或 者 为 其 区 域 下 的 新 分 区 授权 。 

为 了 确保 可 靠 性 ， 通 过 在 区 域 中 保存 若干 个 相同 从 域名 服务 器 来 引入 宛 余 ， 这 些 都 是 由 主 服 务 器 
自动 进行 更 新 的 。 

域名 的 语法 〈 它 是 一 个 包含 字母 和 数字 的 字符 串 ) 严格 对 应 于 域名 空间 树 ， 因 为 每 种 资源 的 定位 
符 都 会 从 树 根 中 得 出 完整 路 径 。 树 的 每 个 节点 都 拥有 一 个 标签 (长 度 最 多 为 63 字 节 ) 。 需 要 注意 的 是 ， 
根 标签 的 长 度 为 0 一 一 它 是 一 个 空 字符 串 。 域 名 是 从 右 到 左 拼 成 (根据 源 于 早期 电子 邮件 寻 址 的 长 期 
公认 的 惯例 ) 的 一 系列 标签 。 因 此 ， 最 右边 的 标签 总 是 对 应 于 项 级 域 。 

标签 是 不 分 大 小 写 的 ~ 。 根 据 定 义 ， 主 机 名 是 至 少 拥 有 一 个 与 其 关联 的 IP 地 址 的 域名 。 并 非 每 个 
域名 都 是 主机 名 (AN. com 或 .edu 都 不 是 主机 名 ) 。 通 过 域名 国际 化 ， 域 名 的 表达 方式 已 经 发 展 到 适应 
多 种 语言 及 其 各 自 的 字母 表 。 

迄今 为 止 ， 仅 在 解析 器 的 情境 中 讨论 了 DNS 的 客户 端 ， 它 不 断 查询 服务 器 8 ， 直 至 找到 地 址 。 但 
是 平滑 网 络 流量 的 需求 《特别 是 当 简短 查询 存在 的 情况 下 ) 要 求 引入 可 以 工作 于 “递归 模式 ”的 域名 
服务 器 〈 即 本 身 可 充当 客户 端 ， 在 返回 答案 之 前 查询 多 台 服 务 器 ) 。 递 归 域 名 服务 器 ( 见 图 5.3) 也 组 
存 了 答案 。 遗 优 的 是 ， 缓 存 保存 和 开放 递归 服务 配置 已 成 为 安全 攻击 的 引擎 ,将 在 本 章 后 面 进行 介绍 。 

域名 服务 器 的 默认 〈 和 强制 实现 ) 模式 是 非 递归 的 。 在 这 一 模式 下 ， 它 仅 使 用 本 地 信息 来 回答 查 
淘 。 它 通过 提供 答案 、 错 误 或 推荐 另 一 台 服 务 器 来 做 出 响应 。 要 使 用 递归 模式 ， 客 户 端 和 服务 器 都 必 
须 达 成 共识 。 


O WAR RFC 4343 (txt) 中 与 转 义 序列 和 其 他 棘手 问题 相关 的 说 明 。 
O ”如 前 所 述 ， 该 过 程 〈 本 质 上 是 迭代 过 程 ) 早期 在 DNS 定义 中 被 称 为 递归 ， 且 名 称 已 经 不 再 使 用 。 
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为 了 说 明 DNS 操作 ， 将 介绍 DNS 协议 的 基础 知识 。 
图 5.4 给 出 了 DNS 查询 和 DNS 响应 的 通用 格式 。16bit 边界 对 齐 是 协议 数据 单元 的 主要 组 成 部 分 。 





最 相关 的 部 分 是 报头 ， 其 中 包含 : 

1) 单元 标识 从 (Identification，ID) ， 以 便 将 回复 与 未 完成 的 查询 相关 联 ; 

2) 标签 位 (QR)， 它 表示 该 单元 是 查询 还 是 响应 ; 

3) OPCODE， 用 于 指定 查询 ”; 

4) 标志 〈AA) ， 仅 在 表明 响应 是 否 具 有 经 过 授权 的 响应 中 才 有 意义 ; 

5) 截断 标志 〈 如 果 消 息 因 超过 域 允 许 的 长 度 而 已 被 截断 ， 则 对 该 字段 进行 设置 ) ; 

6) 两 个 标志 一 一 期 望 递 归 (Recursion Desired, RD) 和 可 用 递归 (Recursion Available, RA), 其 
中 前 者 仅 用 于 指示 域名 服务 需 递 归 执 行 查询 的 查询 ， 而 后 者 用 于 表示 服务 器 是 否 真 正 支 持 递 归 查 询 的 


O ”例如 ，DNS 最 初 设计 用 于 支持 反 回 查询 ， 但 该 功能 已 被 弃 用 。 
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啊 应 中 一 一 Z 位 预 留 供 将 来 使 用 ， 且 预期 值 为 0; 

7) RCODE， 用 于 指定 响应 代码 ; 

8) QDCOUNT, ANCOUNT, NSCOUNT 和 ARCOUNT, 分别 指 定 后 面 各 部 分 (问题 、 答 案 、 权 限 和 
其 他 ) 中 各 项 代表 的 整数 。 

问题 部 分 是 包含 QNAME (域名 ) 、QTYPE (将 在 讨论 资源 记录 时 提供 更 多 内 容 ) 和 QCLASS Mic 
录 数 组 (大 小 为 QDCOUNT) ， 该 数组 实际 上 包含 一 个 IN 值 (对 于 互联 网 来 说 )”。 

答案 、 权 限 和 其 他 部 分 是 相同 的 ， 因 为 每 个 字段 都 包含 一 组 资源 记录 (Resource Record, RR) 。 

资源 记录 (RR) 的 结构 如 图 5.5 所 示 ， 其 中 的 绝 大 部 分 是 不 解 自明 的 。 


树 中 节点 完全 合格 的 域名 (64bit) 


IN( 针 对 互联 网 主机 名 、 服 务 器 和 iP 地址) 


记录 数据 
生存 时 间 a 


记录 TYPE 是 一 个 域 ， 它 已 经 被 赋予 新 值 。 AEDE A (EERE [Ped Sst), E AAAA SADIE 
(针对 IPv6 地 址 )。 其 他 实例 是 起 始 授权 机 构 (Start Of Authority, SOA), CERT (针对 加 密 证 书 ) 和 
SERV (针对 服务 ) SERV 由 RFC 2782 指定 ， 支 持 我 们 明确 执行 指定 服务 的 服务 器 位 置 。 此 功能 对 于 
电子 邮件 和 IP 电话 非常 有 用 ， 其 中 资源 定位 器 
(本 节 稍 后 将 进行 解释 ) 可 用 于 发 现 特定 的 域名 提 
供 服 务 。 

使 用 字符 串 可 能 会 变 得 更 加 复杂 (正如 所 有 
编译 器 作者 都 知道 的 ) 。 图 5.6 中 描述 的 一 个 问题 
是 循环 依赖 关系 ， 当 域名 服务 器 返回 指向 待 解析 原 
始 域 的 名 称 引用 时 ， 会 出 现 循环 依赖 问题 。 为 此 ， 
RFC 1035 假设 在 这 种 情况 下 ， 在 引用 中 指定 了 胶 
水 记录 〈 即 实际 地 址 ) 。 

生存 时 间 (TTL) 参数 是 一 个 有 趣 的 实例 ， 必 
须 对 早期 (1983 年 ) 规范 进行 修改 。 人 们 发 现 ， 但 此 时 需要 对 A.ore 
16 位 整数 太 小 而 无 法 指定 合适 的 时 间 值 (单位 为 a 
s) ， 因 而 将 该 字段 加 长 到 32 位 。 








© IETF 不 鼓励 在 RFC 2826 中 使 用 备用 根 域名 服务 器 ， 且 饱 受 争议 的 AlterNIC 和 eDNS 根 服务 器 已 被 关闭 。 人 们 仍然 在 努 
力 构建 备用 根 服 务 器 ， 其 中 的 一 台 备 用 根 服务 器 用 于 “位 ”比特 币 操作 。 
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OZEE T T E 


5.1.2 DNSe tta 


迄今 为 止 ， 根 据 所 描述 的 内 容 ， 应 该 清楚 的 是 运行 顶级 域名 服务 器 是 一 项 艰巨 的 技术 任务 (AA 
需要 将 所 有 数据 库 复 制 到 网 络 外 界 ， 且 同时 确保 安全 ) 。 但 除了 技术 复杂 性 之 外 ， 域 名 可 以 进行 买卖 的 
事实 自然 使 事情 变 得 更 为 复 林 。 

DNS 被 采纳 后 ，Jon Postel 成 立 了 互联 网 号 但 分 配 机 构 (Internet Assigned Numbers Authority, 
IANA). 。 除 了 其 他 任务 之 外 ，IANA 的 一 项 重要 任务 是 管理 根 域 。1998 Æ, IANA 成 为 新 成 立 的 互联 网 
名 称 与 号 码 分 配 机 构 (Internet Corporation for Assigned Names and Numbers, ICANN) 的 一 个 部 门 。 根 据 
美国 政府 的 某 项 商业 合同 ， 除 了 执行 其 他 服务 之 外 ， 条 款 规定 : 该 部 门 还 需要 “由 协调 技术 协议 参数 
的 分 配 ， 包 括 管理 地 址 和 路 由 参数 区 (Address and Routing Parameter Area, ARPA) 顶级 域 ; @) 管 理 与 
互联 网 DNS 根 域 管理 相关 的 某 些 责任 ， 如 通用 (gTLD) 和 国家 代码 (ccTLD) 顶级 域名 ; 人 互联 网 编 


顶级 域名 (Top Level Domain, TLD) 对 应 于 DNS 根 域 。 将 所 有 TLD 的 相关 信息 复制 到 13 台 根 服务 
器 上 (更 确切 地 说 ， 是 根系 统 ， 稍 后 将 加 以 解释 ) 中 ， 由 字母 表 的 相应 字母 进行 命名 一 一 从 A 到 M。 
每 台 服 务 器 都 有 一 个 名 称 ， 从 该 字母 开始 ， 并 加 上 后 缀 “. root - servers. net” 

认为 服务 器 是 单一 主机 是 一 种 常见 的 错误 (尽管 很 入 以 前 就 出 现 了 这 种 错误 )。 除 了 一 个 例外 ”， 
这 些 主机 在 世界 各 地 不 同 服务 器 之 间 进 行 复 制 ， 这 些 服 务 器 的 总 数目 前 接近 400 A. AE, “AR ae” 
这 个 词 不 够 准确 ， 它 实际 上 指 的 是 系统 。( 仅 工 系 统 就 拥有 履 盖 全 球 的 146 ARS ae!) 事实 上 ， 大 多 
数 根系 统 作为 网 络 运行 一 一 它们 具有 自治 域 (Autonomous System, AS) 号 码 ， 并 输入 对 等 协议 。 通 常 ， 
任意 播 IP 寻 址 用 于 查找 最 接近 查询 发 布 者 的 计算 机 。 

在 顶级 域 中 ， 不 存在 主 系统 或 主 服 务 器 ” 。 所 有 根系 统 (更 确切 地 说 ， 每 个 根系 统 中 的 实际 主机 ) 
在 所 有 现存 项 级 域 授权 的 域名 服务 右 的 地 址 记录 方面 具有 相同 的 知识 。 管 理 机 构 一 一 威 瑞 信 公司 ( 扮 
演 承 包 商 的 角色 ) 使 用 它 所 维护 的 同一 组 文件 对 所 有 主机 进行 更 新 。DNS 根 服务 需 在 美国 商务 部 ( De- 
partment of Commerce, DoC) 的 下 属 机 构 国家 电信 和 信息 管理 局 (National Telecommunications and 
Information Administration, NTIA) 的 授权 下 运行 。 


5.1.3 顶级 域名 标签 太太 

edu 是 顶级 域名 (TLD) 的 一 个 实例 ， 它 预 留 给 可 信任 的 高 等 院 校 使 用 。mil 和 gov 是 具有 严 控 注 册 
权限 的 项 级 域名 的 其 他 实例 。 这 些 域 名 分 别 预 留 给 美国 军 方 和 美国 政府 机 构 。 一 些 诸如 com 或 biz 等 域 
名 (主要 用 于 商业 领域 )， 最 初 预 留用 于 某 一 目的 (在 实例 中 ， 预 留 给 商业 公司 ), 但 最 终 对 所 有 人 开 
放 。 类 似 的 情况 还 有 net 域名 ， 它 最 初 是 为 了 指定 网 络 而 创建 的 ， 但 最 终 被 用 于 各 种 目的 。 

在 1998 年 左右 ， 控 制 项 级 域名 的 发 展 不 太 顺 利 一 一 随 着 电子 商务 的 发 展 ， 不 同 团 体 (包括 一 群 认 
为 互联 网 属于 自己 的 IETF 工程 师 和 互联 网 爱好 者 ) 声称 互联 网 资源 属于 自己 。 这 里 既 没 有 篇 幅 也 没有 
时 间 来 描述 这 段 历 史 。 需 要 注意 的 是 ，ICANN 是 为 管理 顶级 域名 而 产生 的 。( 现 在 ， 大 家 或 许 会 对 前 面 
引用 的 关于 ICANN 使 命 陈述 的 摘录 有 更 加 深入 的 理解 。) 

ICANN 对 几 组 顶级 域名 进行 了 区 分 。 通 用 顶级 域名 (Generic Top Level Domain, gTLD) EFE i 
用 的 标签 ， 如 com、net、edu 等 。 国 家 /地 区 代码 顶级 域名 (country code Top Level Domain, ccTLD) 基 
于 双 字 符 ISO (International Organization for Standardization， 国 际 标 准 化 组 织 ) 国家 /地 区 代码 。 基 础 设 
施 顶 级 域名 (使 用 名 称 arpa， 读 者 可 能 还 记得 ICANN 的 使 命 陈 述 ) 主要 用 于 反问 查询 IP 地 址 。 

ccTLD 还 存在 于 各 目的 国际 化 版 本 中 (将 在 后 面 进行 讨论 )， 以 及 为 测试 国际 化 而 创建 的 特殊 测试 
域 。 最 后 ，RFC 2606 定义 了 仅 用 于 测试 、 自 引用 和 引用 的 域 作 为 实例 : “… 预 留 了 4 种 域名 ， 将 其 描 
述 如 下 : 

1) 建议 将 .test 用 于 测试 当前 或 新 的 DNS 相关 代码 ; 


© B. root - servers. net 拥有 单一 位 置 。 
O 在 DNS 的 早期 ，A 服务 器 《〈 那 时 它 仅 仅 是 服务 器 ) 是 主 服务 器 。 
O 这 样 做 是 为 了 避免 版 权 和 商标 的 违规 行为 ， 并 防止 人 们 在 实例 中 使 用 “ 真 ”域名 时 引起 其 他 潜在 法 律 问题 。 
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2) 建议 将 . example 用 于 文档 或 实例 中 ; 

3) invalid 开发 用 于 域名 的 在 线 构建 ， 这 些 域 名 注定 无 效 ， 且 显而易见 是 无 效 的 ; 

4) 按照 传统 做 法 ,通常 在 主机 DNS 实现 方案 中 静态 定义 .localhost， 因 为 它 拥 有 指 回 环 回 IP 地 址 
的 A 记录 ， 并 预 留用 于 此 用 途 。 

如 前 所 述 ， 一 些 gTLD (如 .com 或 .net) 最 终 允 许 任何 人 和 任何 事 的 注册 ， 因 而 仅 根 据 标签 来 判 
断 ， 不 可 能 从 域 下 注册 的 实体 推断 出 更 多 信息 。 相 对 于 赞助 顶级 域名 (如 .edu、. mil 或 .int) ， 将 这 种 
通用 顶级 域名 称 为 非 赞 助 顶 级 域名 。 赞 助 顶 级 域名 预 留 给 由 基于 条 约 成 立 的 国际 组 织 ， 它 们 拥有 与 此 
类 域 相关 的 特定 社区 或 兴趣 组 。 对 于 赞助 通用 顶级 域名 (gTLD) 来 说 ， 它 是 一 种 定义 了 能 够 确定 注册 
资格 并 执行 此 类 策略 的 社区 。 

要 真正 理解 ccTLD 并 非 一 件 容 易 的 事情 。 在 特定 国家 名 称 下 注册 需要 做 些 什 么 ”事实 证 明 ， 没有 
简单 的 答案 。 一 些 国 家 要 求 注册 公民 提供 身份 证 明 (如 代表 阿尔 巴 尼 亚 的 顶级 域名 . al)。 其 他 国家 
(如 代表 爱沙尼亚 的 顶级 域名 . ee 或 代表 德国 的 顶级 域名 . de) 只 要 求 当 地 行政 联系 人 在 国内 有 实体 存 
在 。 仍 然 有 一 些 国家 (如 厄立特里亚 )， 根本 不 提供 注册 服务 。 各 国都 可 以 出 售 其 顶级 域名 ， 这 使 得 事 
情 变 得 更 加 混乱 。 众 所 周知 的 实例 是 托 克 劳 将 其 域名 “. 比 ”出 售 给 荷兰 公司 DOT. TK。 据 报道 ， 戴 
伦 - HF] (Darren Pauli) 在 其 网 络 文章 中 报道 了 主机 垃圾 邮件 发 送 者 之 事 。 

域名 历史 上 的 重要 发 展 里 程 碑 之 一 就 是 它们 的 国际 化 ， 或 者 用 户 使 用 本 国语 言 编 写 脚本 的 能 力 。 
这 包括 两 方面 : 了 本 地 脚本 的 编码 ， 以 便 它 可 以 通过 浏览 器 显示 在 监视 器 上 (如 在 中 国 使 用 汉语 进行 
编码 ) ; 四 脚本 与 实际 DNS 使 用 之 间 的 互通 。 

自 20 世纪 70 年 代 以 来 ， 对 终端 和 键盘 上 的 脚本 国际 化 的 支持 力度 不 断 加 大 。 目 前 ， 存 在 着 各 种 各 
样 的 专 有 实现 方案 (针对 各 种 制造 商 生 产 的 计算 机 终端 )， 但 Unicode 联盟 针对 此 项 用 途 开 发 了 一 种 被 
称 为 Unicode 的 标准 编码 方案 。 至 于 与 DNS 的 互通 ， 作 为 IETF 互联 网 草案 的 第 一 个 提案 显然 是 于 1996 
年 发 布 、 由 Diirst 主笔 的 。 

从 那 时 起 ,域名 国际 化 取得 了 很 大 的 成 就 ， 主 要 标准 一 一 RFC 3490: 应 用 中 的 域名 国际 化 方案 
( Internationalizing Domain Names in Applications, IDNA) 发 布 。 首 要 想法 是 在 不 改变 现 有 基础 设施 的 情 
况 下 增加 新 功能 。 换 名 话说， 只 修改 应 用 程序 ， 而 不 修改 DNS。 为 此 ，DNS 仅 使 用 ASCII 编码 〈 非 
Unicode 编码 ) 标签 。 

图 5.7 演示 了 组 件 ， 并 说 明了 IDNA 操作 。 


ToASCII 


ACE 


“ss ToUnicode 





当 用 户 以 他 /她 选择 的 任何 语言 或 脚本 键入 域名 时 ， 应 用 程序 oy 的 工作 是 将 Uni 
code 标签 转换 为 ASCI 兼容 编码 (ASCI - Compatible Encoding, ACE) 字符 串 ， 反 之 亦 然 。 上 映射 由 Pu- 
nicode 指定 ， 它 是 在 2003 年 发 布 的 RFC 3492 中 定义 的 ， 后 来 进行 了 更 新 。ToASCII 算法 将 Unicode 编码 
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的 字符 串 转 换 为 唯一 的 ASC 编码 字符 串 ， 并 将 4 字符 前 级 (“xn - -”) 添加 到 结果 中 ， 因 而 所 有 ID- 
NA 标签 都 以 这 4 个 字符 开头 。 相 反 ，ToUnicode 算法 剥离 ACE 前 级 ， 并 将 其 余部 分 转换 为 Unicode 编码 
的 字符 串 。 

浏览 器 的 工作 是 执行 转换 ， 使 得 从 解析 器 开始 的 整个 DNS 仍然 不 受 影响 ”。ToASCII 是 在 从 用 户 接 
收 到 的 字符 串 上 执行 的 ; 而 ToUnicode 是 在 从 解析 器 接收 到 的 字符 串 上 执行 的 。 

国际 化 存在 的 主要 问题 之 一 〈 它 与 所 有 主要 计算 问题 面临 的 代表 性 问题 类 似 ) 是 安全 性 ， 具 体 来 
说 就 是 欺骗 问题 。 即 使 使 用 明文 ASCI， 某 些 字 母 和 数字 ( 如 字母 “1” 和 数字 “1”) 在 某 些 字体 中 看 
起 来 也 非常 相似 ， 这 一 点 可 能 会 被 恶意 攻击 者 所 利用 。 

随 着 国际 化 步伐 的 加 快 ， 事情 变 得 越 来 越 严重 。 读 者 能 够 看 出 www. paypal. com 和 www. paypal. com 
之 间 的 区 别 吗 ?当然 不 能 。 因 为 这 两 个 字符 串 在 纸张 和 计算 机 屏幕 上 看 起 来 完全 相同 的 ， 这 正 是 问题 
所 在 一 一 第 2 个 域名 实际 上 包含 1 个 西里 尔 字 符 “a”， 它 代替 了 外 形 相 同 的 拉丁 字母 字符 。( 字 母 是 以 
Unicode 格式 输入 本 书 的 。) 如 果 将 对 应 于 这 些 域名 的 字符 串 进 行 比 较 ， 则 会 发 现 这 些 字符 串 是 截然 不 
同 的 。 这 里 将 拼写 相同 但 含义 不 同 的 词 称 为 同形 异 义 词 。 这 一 定义 在 计算 中 已 经 得 到 扩展 ， 它 表示 看 
起 来 相同 的 字符 串 。《 美 国 计 算 机 学 会 通信 》 中 的 一 篇 文章 ”报道 了 一 种 现 有 钓鱼 攻击 ， 并 警告 其 在 国 
际 化 域名 系统 中 的 可 能 性 。 

如 果 所 有 浏览 器 均 禁 止 使 用 属于 同一 标签 中 不 同 字 母 表 的 Unicode 字符 组 合 ， 则 可 能 会 阻止 攻击 ， 
但 这 将 非常 难以 实施 。 针 对 域名 注册 商 ， 该 解决 方案 通过 拒绝 注册 含有 此 类 混合 字母 的 域名 的 方式 ， 
来 禁止 混合 来 自 不 同 字母 表 字 符 的 做 法 。 这 表明 国际 化 域名 的 层次 结构 将 在 各 自 权 威 机 构 之 下 进行 创 
建 和 配置 。 

创建 DNS 的 独立 顶级 域名 主要 用 于 实现 国际 化 。 将 其 称 为 国际 化 国家 /地 区 代码 顶级 域名 (IDN 
ccTLD), 

ICANN 董事 会 于 2006 年 12 月 批准 设立 了 一 个 国际 化 顶级 域名 工作 组 。 在 不 到 3 年 的 时 间 里 ， 他 们 
开始 接受 来 自 全 球 各 国 和 地 区 代表 的 顶级 国际 化 域名 申请 。 


5.1.4 DNS 安全 xxx 


与 早期 互联 网 的 发 展 一 样 ， 发 明 互 联网 的 人 首先 开始 使 用 互联 网 。 所 有 工作 的 事物 既 令 人 和 惊异， 
又 发 展 充 分 。 没 有 人 怀疑 系统 会 被 滥用 ( 而且， 在 早期 滥用 它 也 不 会 产生 明显 的 经 济 效 益 )。 因 此 ， 所 
有 应 用 所 依赖 的 DNS， 在 保护 系统 免 受 潜在 攻击 者 威胁 方面 并 未 做 任何 特殊 设计 。 这 一 也 许 过 于 马 托 
邦 式 的 想法 ， 使 互联 网 社区 永远 是 友善 的 。Jon Postel 在 RFC 760 (1980 年 发 布 ) 中 提出 其 著名 的 鲁 棒 
性 原则 :“ 通 常 来 说 ， 实 现 方案 在 其 发 送行 为 方面 应 该 是 保守 的 ， 而 在 接收 行为 中 应 该 是 自主 的 。 最 
后 一 个 分 句 意味 着 如 果 接 收 到 的 协议 数据 单元 (PDU) 在 形式 上 不 够 统一 但 可 以 解释 ， 则 应 该 接受 协 
议 数据 单元 而 不 是 拒绝 。 遗 憾 的 是 ， 这 种 宽 宏 大 量 的 态度 已 经 被 利用 。 

利用 DNS 漏洞 的 动机 非常 简单 ， 与 抢劫 银行 的 动机 类 似 : 人 们 抢劫 银行 是 因为 银行 里 有 钱 。 如 采 
攻击 者 能 以 某 种 方式 欺骗 递归 域名 服务 器 RT a) 接受 指 癌 攻击 者 网 站 〈 而 不 是 银行 网 站 ) 的 错 
误 记录 ， 则 他 可 以 了 解 与 访问 过 攻击 者 网 站 的 银行 客户 有 关 的 诸多 信息 〈 包 括 他 或 她 的 密码 ) 。 在 许多 
客户 身上 重复 同样 的 伎俩 〈 这 正 是 软件 所 擅长 的 ) ， 然 后 使 用 得 到 的 密码 来 提 钱 ， 最 终 达到 与 抢劫 银行 
相同 的 目的 。 

DNS 原始 设计 存在 的 主要 问题 是 (并且 仍然 是 ) 解析 器 或 递归 域名 服务 器 得 到 的 记录 未 被 验证 ”。 
最 终 ， 只 要 某 个 响应 与 QueryID、 请 求 者 的 端口 号 和 原始 查询 匹配 ， 则 认为 该 啊 应 是 有 效 的 。 如 果 茶 个 
进程 〈 称 为 中 间 人 ) 可 以 拦截 DNS 请 求 ， 则 它 可 以 响应 进程 所 构成 的 任何 记录 。 请 求 的 发 起 者 无 法 看 
到 任何 差异 。 创 建 中 间 人 并 不 总 是 可 行 的 ， 因 而 攻击 进入 了 下 一 个 复杂 程度 。 

使 用 缓存 投 毒 攻 击 (本草 参考 文献 [3」 对 这 一 主题 进行 了 详细 评论 )， 攻击 者 猜测 QueryID Fil sia 
口号 《〈 稍 后 将 对 此 进行 解释 ) ， 然 后 将 “ 啊 应 ”返回 给 热门 查询 (这 也 需要 猜测 )。 因 此 ， ENTA R 

O KRE, Punicode 的 设计 初衷 是 不 仅 可 用 于 域 标签 ， 而 且 还 可 用 于 各 种 应 用 所 使 用 的 其 他 字符 串 ， 以 便 为 国际 化 URI 提 


供 支 持 ， 将 在 本 书后 面 对 这 一 问题 进行 讨论 。 
O 顺便 说 一 下 ， 大 多 数 记 录 仍 然 未 被 认证 。 
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存 长 时 间 (时 长 与 TIL 指定 时 间 相 同 ) 被 攻击 者 的 下 地 址 “ 投 毒 "”。 现 在 ， 只 要 QueryID 是 渐变 的 ， 
则 对 其 进行 猜测 是 相当 容易 的 。( 攻击 者 可 以 继续 发 出 自己 的 查询 来 确定 QueryID。) 只 要 端口 号 保持 不 
变 ， 则 端口 号 也 可 以 很 容易 被 猜 到 。 因 此 ， 虽 然 实现 端口 号 随机 化 并 非 易 事 〈 将 在 本 章 稍 后 讨论 NAT 
盒 时 进行 说 明 ) ， 但 是 采用 的 对 策 仍 是 对 QueryID (使 用 伪 随 机 数 生 成 器 ) 和 端口 号 进行 随机 化 。 尽 管 
如 此 ， 没 有 任何 东西 可 以 阻止 攻击 者 随机 使 用 QueryID 发 送 诸多 “响应 ”， 据 说 这 种 攻击 相当 有 效 。 

此 外 ， 直 到 2008 4F (IETF 发 布 DNS 安全 扩展 标准 很 久 以 后 ) ， 人 们 发 现 了 一 个 新 漏洞 ， 其 中 整个 
区 域 可 能 被 欺骗 。 具 体 来 说 ， 攻 击 者 可 以 对 域名 服务 需 进 行 配 置 。 该 域名 服务 需 声 称 在 给 定 区 域内 它 
是 经 过 授权 的 。( 从 本 质 上 来 讲 ， 拥 有 这 人 么 做 的 能 力 不 存 在 任何 错误 或 危险 ， 因 为 层次 结构 中 级 别 更 高 
Niky RAS E.) 然后 ， 攻 击 者 发 送 “ 响 应 ”与 权限 记录 ,将 其 委托 给 被 欺骗 区 域内 的 授权 
服务 磊 。 实 际 上 ， 授 权 服 务 大 的 名 称 是 正确 的 ， 但 胶水 记录 将 提供 攻击 者 的 IP eht, 

当然 ， 存 在 着 针对 此 类 特定 攻击 的 对 策 ( 因此， 为 响应 任意 给 定 攻 击 ， 人 们 需要 不 断 更 新 域名 服 
务 故 软件 的 补丁 ) ， 同 时 ， 针 对 广义 DNS 安全 问题 ， 人 们 提出 了 多 种 相当 简单 的 解决 方案 。RFC 3833 
提供 了 一 个 完整 的 攻击 目录 。 

也 许 最 简单 的 解决 方案 是 在 客户 端 和 域名 服务 器 之 间 使 用 通过 认证 的 信道 ， 以 便 明 确 每 个 记录 的 
来 源 。 为 此 ， 可 以 由 IPSec (IP Security， 卫 安全 ) 信道 来 完成 此 工作 。 

男 一 种 更 为 通用 的 解决 方案 是 对 每 条 DNS 记录 进行 认证 ， 以 便 客 户 端 可 以 对 其 来 源 进行 检查 。1997 
E, ETF 开发 出 一 种 解决 方案 ， 并 发 布 详细 说 明 域 名 系统 安全 扩展 (DNSSEC) 的 首 个 标准 (RFC 2065, 
现 已 作废 )。 围 绕 该 标准 的 工作 继续 ， 当 前 的 规范 集 (DNSSEC -bis) 包含 在 RFC 4033 ~4035 中 。 

该 方案 是 使 用 公 钥 密码 体制 ， 并 从 根 授权 域名 服务 器 开始 ， 自 上 而 下 对 信任 链 进 行 验证 。 实 际 上 ， 
DNSSEC 不 仅 提 供 了 对 记录 来 源 的 认证 ， 而 且 还 提供 了 其 完整 性 保证 (对 客户 端 工作 过 程 所 做 的 任何 修 
改 )。 要 文 持 此 功能 ，DNSSEC 将 添加 新 的 资源 记录 类 型 ; 

1) 资源 记录 签名 (Resource Record Signature, RRSIC) ; 

2) WZ AAAH (Domain Name System Public Key, DNSKEY) ; 

3) 授权 签名 者 (Delegation Signer, DS) ; 

4) 下 一 代 安 全 (Next Secure, NSEC), 

DNSSEC 还 通过 添加 新 标志 来 修改 消息 头 。 总 之 ， 这 些 修改 以 生成 更 大 DNS 响应 消息 作为 结束 。 
遗憾 的 是 ， 该 结果 在 本 章 稍 后 讨论 的 拒绝 服务 (Denial of Service, DoS) 攻击 中 被 利用 。 

新 资源 记录 类 型 的 用 途 如 下 所 述 。 

RRSIG 记录 存储 了 各 个 DNS RRset 的 数字 签名 。 通 过 支持 多 个 私 钥 对 区 域 的 数据 进行 签名 (可 能 
需要 不 同 的 算法 )， 可 能 会 使 情况 变 得 更 为 复杂 。 安 全 感知 解析 器 的 工作 是 学 习 区 域 信息 的 公 钥 。 为 了 
使 此 流程 工作 ， 解 析 器 当然 必须 至 少 配置 一 个 信任 锚 点 。 这 可 以 通过 配置 信任 锚 点 〈 充 当 用 于 构建 针 
对 DNS 响应 的 认证 链 起 点 的 公 钥 或 其 散 列 值 ) 来 实现 。 安 全 感知 解析 器 可 以 从 其 配置 或 在 DNS 标准 解 
析 过 程 中 学 习 锁 点 。 为 了 达到 在 DNS 标准 解析 过 程 中 学 习 锁 点 的 目标 ,， 我们 引入 了 DNSKEY RR, $% 
着 ， 安 全 感知 解析 器 通过 形成 从 新 的 DNSKEY 到 已 知 DNSKEY 的 认证 链 来 对 区 域 信息 进行 认证 。 为 了 
使 此 流程 正常 发 挥 作用 ， 解 析 器 当然 必须 至 少 配 置 一 个 信任 销 点 。 

DS RR 用 于 对 路 区 域 边界 的 授权 进行 签名 ， 它 包含 了 授权 子 区 域 的 公 铀 。 并 不 是 说 复杂 性 总 是 对 
安全 性 有 益 ， 但 RFC 4033 指出 ,“DNSSEC 支持 更 加 复杂 的 认证 链 ， 如 在 区 域内 DNSKEY RR 的 附加 层 
对 其 他 DNS RR 进行 签名 。” 

在 默认 操作 模式 下 ， 认 证 链 是 从 根 区 域 到 叶 区 域 构建 的 , 但 DNSSEC 支持 的 本 地 策略 优先 于 默认 模式 。 

运 今 为 止 , 已 经 描述 了 DNSSEC 如 何 处 理 肯 定 响 应 。 相 比 之 下 ，NSEC RR 用 于 对 否定 响应 进行 签 
Zo RFC 4033 解释 道 :“NSEC 记录 支持 安全 感知 解析 器 使 用 认证 其 他 DNS 回复 的 相同 机 制 ， 来 对 名 称 
或 类 型 不 存在 的 否定 啊 应 进行 认证 ……NSEC 记录 链 对 区 域 中 域名 之 间 的 差距 或 “真空 区 ”进行 显 式 描 
述 ， 并列 出 存在 于 现 有 名 称 中 的 RRset 类 型 ”。 

每 条 信任 链 都 是 如 此 ， 信 任 链 与 其 最 弱 的 环节 一 样 健壮 。 如 果 这 一 信任 链接 恰恰 位 于 根 目 录 ， 则 
每 条 信任 链 都 会 很 弱 。 因 此 ， 顶 级 域名 服务 器 的 安全 性 是 需 关注 的 主要 问题 。ICANN 通过 编写 用 于 签 
敬 根 目录 的 脚本 来 解决 这 个 问题 ， 其 中 设计 了 包含 响亮 有 趣 名 称 的 多 个 角色 ( 如 域名 管理 员 、 加 密 员 、 
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安全 控制 员 、 内 部 见证 人 等 ) ， 以 执行 所 需 的 步骤 。 这 些 步 又 包括 确保 密 钥 存储 的 安全 性 最 初 为 空 ”， 
将 密 钥 生成 设备 带 入 房间 ， 生 成 密 钥 并 对 密 钥 进行 签名 〈 生 成 证 书 ) ， 备 份 智能 卡 上 的 密 钥 ， 以 及 存储 
恢复 密 钥 材料 〈 在 防 自 改 硬件 安全 模块 中 ) ， 然 后 将 其 放置 在 各 种 保险 箱 中 。 所 有 这 一 切 都 是 在 审计 员 
面前 完成 的 ， 且 每 一 步骤 都 仔细 记录 在 某 个 日 志 中 。 当 然 ， 所 有 参与 者 都 可 通过 各 自 政府 颁发 的 喘 份 
证 件 进行 身份 验证 。 不 同房 间 拥 有 不 同 进 入 许可 证 。 例 如 ， 不 是 每 个 人 都 可 以 进入 安全 房间 。 相 反 ， 
在 脚本 编写 结束 或 预定 的 休息 时 间 之 前 ， 不 允许 任何 人 离开 脚本 编写 室 。 当 然 ， 还 存在 着 参与 回收 材 
料 年 度 库存 的 流程 。 

遗憾 的 是 ，DNS 本 身 可 以 (在 不 破坏 自身 安全 性 的 情况 下 ) 用 于 拒绝 服务 攻击 ， 我 们 将 其 作为 攻 
击 家 族 的 一 部 分 将 在 下 一 节 进 行 讨论 。 

DNS 对 互联 网 的 重要 性 不 可 低估 。“ 互 联网 治理 ”的 概念 几乎 意味 着 对 DNS 根 服务 器 顶级 域名 空 
间 的 管理 。20 世纪 90 年 代 ， 发 生 过 一 种 情况 ， 即 某 些 DNS 开创 者 对 互联 网 治理 有 着 截然 不 同 的 看 法 。 
在 参考 文献 [4j SERE AT on inp 作者 对 已 tn 其 
VE 





SAAR SERN (ICANN), 存在 诸多 争议 ， er ICANN 
已 经 实现 了 多 少 。 以 下 是 从 本 章 参考 文献 [4] MIAA: “… [ICANN] 分 散 了 域名 的 销售 和 分 销 ， 
导致 注册 价格 大 幅 下 降 。 建 立 了 解决 商标 争议 的 有 效 机 制 ， 缓 解 了 “域名 抢 注 ”问题 …… 命 名 和 编号 
系统 保持 了 足够 的 稳定 性 ， ASRS sis BL Pe si i la a ed 


RR Bare ee SD: Bi Ki EE ps 

NIST (National Institute of Standards and Technology， 国 家 标准 与 技术 研究 院 ) | een yee KSEE 
义 为 一 种 用 于 控制 “... 处 在 不 同安 全 态势 的 网 络 或 主机 之 间 的 网 络 流量 ”的 编程 设备 。 

这 一 定义 包含 3 个 方面 的 内 容 。 首先 ， 防火 墙 不 一 定 是 以 “盒子 ”的 形态 呈现 出 来 一 一 将 在 讨论 
网 络 功能 虚拟 化 时 进一步 阐述 该 概念 。 其 次 ， 如 图 5.8 所 示 ， 防 火 墙 既 可 能 位 于 两 个 网 络 之 间 ， 又 可 能 


a) 位 于 两 个 网 络 之 间 的 防火 墙 





日” 为 了 完成 这 一 任务 ， 密 钥 是 必 备 的 ， 这 是 设备 的 一 部 分 。 
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位 于 单 台 主机 和 网 络 之 间 。 (为 此 ， 防 火 墙 可 能 由 操作 系统 提供 ， 或 者 正如 稍 后 将 要 讨论 的 ， 以 一 种 纯 
“ 软 ” 的 形式 一 一 由 虚拟 机 管理 程序 来 提供 。) 再 次 ， 防 火 墙 可 能 不 一 定位 于 两 个 不 同 网 络 之 间 ， 分 别 
采用 不 同安 全 策略 的 同一 网 络 的 不 同 部 分 〈 或 区 域 ) 必须 单独 进行 保护 。 

如 图 5.9 所 示 ， 最 后 一 点 是 至 关 重 要 的 。 通 常情 况 下 , “防火 墙 是 第 一 道 防线 ”， 但 是 重要 的 问题 
是 : 谁 是 攻击 者 ? 例如 ,攻击 可 能 来 自 于 机 构 内 部 ， 且 第 一 道 防线 是 根据 各 自 策略 来 保护 机 构 所 在 网 
络 的 每 个 部 分 。 





防火 墙 不 仅 是 为 了 阻止 “恶意 流量 ”进入 。 正 如 将 要 看 到 的 ， 防火墙 的 男 一 个 用 途 是 防止 非 正 当 
流量 离开 网 络 。 正 当 的 概念 由 安全 策略 进行 定义 ， 且 会 随时 间 和 法 律 要 求 而 发 生变 化 。 有 趣 的 是 ， 限 
制 离开 网 络 的 流量 不 一 定 属于 保密 问题 ， 正 如 父母 对 子女 的 不 良 行 为 负责 一 样 ， 机 构 也 需要 对 恶意 流 
量 源 负 责 。 

本 章 参 考 文献 [6] 对 防火 墙 的 早期 历史 进行 了 描述 。 根 据 本 书 前 面 章节 所 描述 的 内 容 ， 防 火 墙 技 
术 比 数据 通信 技术 出 现 得 要 晚 得 多 一 一 就 像 大 多 数 安全 技术 发 展 的 情况 一 样 ， 防 火 墙 技术 的 改进 也 是 
响应 式 的 。 第 一 种 防火 墙 只 是 分 离 式 局 域 网 (LAN) ， 且 有 意 将 其 内 置 到 路 由 需 而 不 是 第 2 层 交 换 机 
中 ， 以 便 完 全 终止 流量 广播 。 正 如 本 章 参 考 文献 [6] 所 描述 的 那样 ， 这 些 早期 防火 墙 并 没有 将 安全 问 
题 考 虑 在 内 。 根 据 防 火 墙 的 原意 (防止 火焰 从 一 个 房间 或 建筑 物 蔓延 到 另 一 个 房间 或 建筑 物 的 手段 ) , 
这 一 思路 只 是 为 了 防止 局 域 网 络 问题 的 扩散 ， 其 中 大 部 分 问题 当时 是 由 配置 错误 引起 的 。 

20 世纪 90 年 代 初 ， 作 为 网 络 安全 引擎 的 防火 墙 开 始 变 得 活跃 。 最 初 ， 一 些 增加 了 执行 用 于 限制 某 
些 目 的 地 址 和 源 地 址 的 过 滤 规 则 的 能 力 的 路 由 器 开始 出 现 。 同 时 ， 数 字 设 备 公 司 (Digital Equipment 
Corporation, DEC) 和 AT&T: ( American Telephone & Telegraph， 美 国电 话 电 报 公 司 ) 贝尔 实验 室 的 人 研究 
将 包 过 滤 与 应 用 网 关 结 合 起 来 ( 见 图 5. 10)。 据 报道 ， 第 一 款 商 业 防 火 墙 已 于 1991 年 面市 。 

应 用 网 关 的 功能 远 超 过 其 名 称 所 隐 含 的 功能 (采取 一 切 措 施 确定 的 委婉 说 法 ) 一 一 在 确保 应 用 网 
关 实 际 上 是 网 络 层 设备 一 部 分 并 继续 检查 网 络 和 传输 层 数 据 报 的 同时 ， 它 还 负责 检查 应 用 层 的 网 络 流 
量 。 当 然 ， 这 一 想法 是 不 仅 负责 检查 流量 ， 而 且 还 要 通过 限制 流量 ( 即 丢 弃 可 疑 的 数据 包 ) 来 跟 踊 检 
查 。 当 时 ， 由 防火 墙 开 始 执行 的 另 一 项 基本 任务 就 是 创建 日 志 。 与 湾 在 攻击 有 关 的 信息 以 前 是 且 现 在 
仍 是 非常 宝贵 的 。 

就 互联 网 架构 纯粹 主义 者 而 言 ， 防 火 墙 是 令 人 深恶痛绝 的 。 首 先 ， 应 用 网 关 开发 公然 违反 分 层 原 则 ; 


O 这 里 的 “攻击 ”并 不 一 定 涉 及 旨 在 摧毁 基础 设施 的 暴力 行为 ， 它 可 能 只 是 试图 获取 必须 保密 的 信息 。 稍 后 将 会 看 到 一 些 
常见 威胁 和 已 经 实现 的 攻击 。 
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其 次 ， 它 导 臻 通信 在 未 通知 端点 的 情况 下 断 开 ， 这 不 可 能 推断 出 为 什么 端点 之 问 的 流量 丢失 ， 因而 可 
能 会 接受 网 络 拥塞 并 采取 相应 的 行动 ”。 

然而 ， 应 用 层 防 火场 〈 或 应 用 网 关 ) 的 引入 不 仅 被 网 络 管理 员 广 泛 接受 ， 而 且 还 被 互联 网 研究 人 
员 和 架构 师 广 泛 认 可 。 本 章 参 考 文献 [7] 的 作者 之 一 ”是 一 位 狂热 的 互联 网 爱好 者 [后 来 ，Steve Bell- 
ovin 博士 人 选 互 联网 架构 委员 会 (Internet Architecture Board，IAB ) ， 并 领导 了 IETF 研究 领域 ] 在 《 防 
火 墙 与 Intenet 安全 : 击 退 狭 独 的 黑客 (第 1 版 )》(1994 年 出 版 ) PSI: “ee 我 们 认为 防火 墙 是 一 
种 重要 工具 ， 它 可 以 最 大 限度 地 降低 风险 ， 同 时 提供 网 络 连接 的 大 部 分 优点 〈 但 不 一 定 全 部 是 优点 ) 。 

需要 注意 的 是 ， 上 述 陈 述 出 现在 万 维 网 、 电 子 商 务 、 互 联网 泡沫 以 及 电信 提供 商 、 银 行 、 报 纸 、 
广告 商 和 犯罪 分 子 针对 P 网 络 的 大 规模 运动 之 前 。 为 了 理解 所 涉及 的 威胁 ， 需 要 研究 一 下 20 世纪 80 
年 代 末 前 后 的 互联 网 应 用 。 这 些 互 联网 应 用 包括 : 

1) 文件 传输 ; 

2) 电子 邮件 (顺便 说 一 下 ,电子 邮件 几乎 只 能 传输 纯 文 本 的 附件 ,仍然 采用 ASCII 编码 ， 后 来 开 
始 流行 起 来 ) ; 

3) 远程 电 传 〈 纯 ASCI 文本 ) 终端 服务 (通过 Telnet 协议 ; 

4) 远程 登录 包 (包括 远程 shell 执行 ) ; 

5) 域名 服务 (采用 Finger 协议 ) 一 一 将 其 作为 呈现 事件 包 进 行 传递 ; 

6) 新 闻 组 一 一 一 种 公告 栏 讨 论 服 务 ， 它 是 互联 网 论坛 的 前 身 。 

在 今天 看 来 ， 虽 然 这 些 服务 过 于 简单 和 老 套 ， 但 是 仍然 存在 诸多 安全 问题 。 虽 然 还 有 些 问题 难于 
预防 和 取证 ,但 是 有 它们 是 易于 想到 的 (通过 远程 登录 在 未 经 授权 的 情况 下 访问 远程 计算 机 )。 黑 客 混 
FAR B/E PR BT, 偶尔 也 会 截获 电子 邮件 ， 虽然 后 者 导致 的 后 果 不 像 现 在 那么 严重 ， 因 为 当 
时 公司 间 通 信 仍 然 以 纸 质 备忘录 、 面 对 面 的 会 议和 电话 (当时 使 用 老式 电话 进行 通信 是 非常 安全 的 ) 
的 形式 实现 。 

这 些 看 似 微不足道 (但 实际 上 尚未 被 利用 的 ) 的 滥用 手段 对 1988 年 互联 网 蠕虫 攻击 产生 了 巨大 影 
响 。 在 此 次 攻击 中 ， 康 奈 尔 大 学 的 研究 生 声称 他 只 是 试图 确定 互联 网 的 规模 ， 巧 妙 利 用 了 泛 在 Berkeley 
UNIX 版 本 中 的 Sendmail 和 Finger 协议 各 上 自 实现 方案 中 的 漏洞 ， 以 及 因 主 机 管理 不 善 而 导致 的 薄弱 环 
节 ， 用 不 断 复制 的 程序 来 感染 大 量 主 机 。 

如 果 因 计算 错误 而 导致 程序 复制 多 次 ， 启动 新 进程 ， 并 最 终 导致 大 量 主机 停摆 不 是 事实 ， 则 运行 


〇 ”通过 采用 更 加 糟糕 的 被 称 为 反 向 代理 的 “异物 ”， 可 以 缓解 这 一 特殊 效果 ， 稍 后 将 进行 讨论 。 
© Steve Bellovin 博士 ， 当 时 是 贝尔 实验 室 的 同事 ,现在 是 哥伦比亚 大 学 的 计算 机 科学 专业 教授 和 美国 联邦 贸易 委员 会 
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zs manalo] 


该 程序 的 过 程 被 设计 为 (本 来 就 应 当 如 此 ) 不 被 察觉 的 。 本 章 参 考 文献 [8] 对 该 攻击 进行 了 详细 
描述 。 

这 一 事件 引起 足够 的 受 动 ， 以 至 于 美国 国会 要 求 政 府 问 责 局 (Government Accountability Office, 
GAO) 调查 此 事 。 由 此 产生 的 报告 使 得 阅读 非常 有 趣 。 它 也 揭示 了 网 络 上 挥 之 不 去 的 损失 估计 的 起 
源 ”。 虽 然 报告 中 提出 的 具体 建议 标 为 “未 实施 ”， 但 是 对 该 事件 的 反应 影响 深远 。 

该 事件 导致 的 一 个 主要 结果 是 ， 美国 国防 高 级 研究 计划 局 (Defense Advanced Research Projects 
Agency, DARPA) 将 软件 工程 研究 所 (Software Engineering Institute, SEI) 收入 麻 下 ， 这 是 一 家 由 联邦 
政府 资助 的 卡 内 基 - 梅 隆 大 学 下 属 的 研发 中 心 ， 创 立 了 CERTS 计划 “以 快速 有 效 地 协调 安全 应 急 领 域 
专家 之 间 的 通信 ， 以 防止 未 来 发 生 事件 ， 并 提高 互联 网 社区 的 安全 意识 。” 该 项 目 在 检测 安全 问题 和 分 
析 产 品 尘 洞 方面 仍然 非常 有 效 。 

互联 网 蠕虫 事件 还 通过 提示 安全 产品 将 会 有 市 场 ， 来 推动 供应 商 公司 中 防火 墙 倡导 者 的 事业 发 展 。 
这 一 市 场 肯 定 会 随 着 万 维 网 的 发 展 而 增长 ， 因 为 互联 网 上 存在 攻击 。 因 此 ， 人 们 已 经 开发 出 不 同类 型 
的 防火 墙 及 其 混合 体 ， 来 保护 新 应 用 ， 应 对 新 威胁 。 

接 下 来 ， 回 顾 一 下 引入 特定 防火 墙 技 术 的 动机 (在 许多 情况 下 ， 动 机 是 应 对 攻击 )， 并 对 防火 墙 技 
术 进 行 简 要 描述 。 为 此 ， 讨论 如 下 内 容 : 

1) 网 络 周边 控制 (包括 VPN) 的 基础 知识 ; 

2) 无 状态 防火 墙 ; 

3) 状态 防火 墙 ; 

4) AR B Ki o 


5.2.1 网 络 边界 控制 cee | 


拥有 网 络 的 每 个 机 构 都 必须 拥有 由 机 构 业 务 需求 决定 的 安全 策略 ， 这 是 一 种 众所周知 的 做 法 。 得 
到 这 种 策略 的 形式 化 表达 ， 并 将 其 转换 为 计算 机 (通常 情况 ) 和 防火 墙 (特殊 情况 ) 可 以 进行 处 理 的 
东西 ， 是 正在 进行 的 研发 主题 。 为 了 撰写 本 章 内 容 ， 仅 列 出 可 以 转换 为 防火 墙 可 用 规则 的 相关 问题 。 

第 1 个 问题 是 可 以 访问 网 络 资源 (如 Web 服务 器 或 电话 网 关 服务 器 ) 的 网 络 外 部 实体 规范 。 对 于 
每 种 资源 来 说 ， 规 范 应 当 涉及 该 资源 的 各 种 网 络 实体 、 用 户 或 用 户 组 的 集合 。 

第 2 个 问题 是 访问 任何 给 定 资源 的 时 限 规范 。 一 个 简单 的 实例 是 连续 时 间 段 或 一 组 连续 时 间 段 的 
规范 。 当 资源 访问 需要 收费 时 ， 问 题 将 会 变 得 更 加 复杂 。 

第 3 个 问题 是 允许 在 资源 上 执行 的 操作 规范 ” (如 某 个 参数 是 只 读 的 ， 或 其 值 也 可 以 进行 更 改 的 情 
FE) 。 由 于 这 些 规范 可 能 取决 于 特定 用 户 〈 如 允许 受 雇 于 网 络 所 有 者 的 网 络 管理 员 拥 有 远 远 高 于 客户 的 
权限 ) ， 因 而 我 们 将 这 些 规范 也 指定 为 访问 规则 的 一 部 分 。 

第 4 个 问题 是 特定 用 户 所 需 的 认证 类 型 规范 。 我 们 认为 ， 这 是 迄今 为 止 最 复 条 的 盖 题 ， 围 纸 这 一 
课题 ,已 经 构建 了 身份 管理 学 科 和 产业 (将 在 本 书后 面 进一步 讨论 )。 

第 5 个 问题 是 用 于 指定 何 种 类 型 的 异常 (甚至 例 程 ) 数据 需要 记 入 日 志 记录 ， 何 种 行为 将 会 导致 
即时 告警 的 规范 。 

将 指定 访问 网 络 内 部 资源 的 规范 复制 到 访问 网 络 外 部 资源 中 ， 上 述 5 个 问题 变 为 10 个 问题 。 在 本 
节 前 面 提 到 ， 重 要 的 是 要 记 住 ， 当 将 “保护 ”一 词 应 用 于 防火 墙 时 ， 它 具有 双重 含义 。 阻 止 错误 数据 
包 进 入 网 络 只 是 问题 的 一 部 分 ， 同 样 重要 的 问题 是 限制 数据 包 输 出 : 阻止 菜 些 数据 包 离 开 网 络 。( 后 一 


外 ”该 报告 宣称 :“ 官 方 没有 估计 病毒 到 底 感 染 了 多 少 台 计 算 机 ， 部 分 原因 是 不 存在 负责 获取 这 些 信息 的 机 构 。 据 媒体 报道 ， 
约 有 6000 台 计 算 机 被 感染 。 据 报道 ， 这 一 数字 是 根据 麻 省 理工 学 院 (Massachusetts Institute of Technology, MIT) 的 估计 
做 出 的 。MIT 指出 ，10% 的 计算 机 已 被 感染 ， 将 这 一 比例 进行 外 推 ， 即 可 估计 得 出 受 感 染 的 计算 机 总 数 。 但 是 ， 并 非 所 
有 网 站 都 拥有 与 麻 省 理工 学 院 相 同比 例 的 存在 漏洞 的 计算 机 。 哈 佛 大 学 研究 人 员 通 过 互联 网 询问 用 户 ， 认 为 更 准确 的 估 
计 结 果 应 当 是 1000 ~ 3000 台 计 算 机 被 感染 。 尝 试 估 计 与 病毒 有 关 的 经 济 损失 存在 类 似 问 题 。 受 感染 机 器 总 数 是 未 知 的 ， 
且 在 每 个 站 点 病毒 相关 问题 上 花费 的 工作 时 间 可 能 会 有 所 不 同 。 哈 佛 大 学 研究 人 员 早 些 时 候 兽 经 提 到 ， 经 济 损失 佑 计 在 
10 万 ~ 1000 万 美元 之 间 。 

加” 它 听 起 来 有 些 抽象 ， 但 是 在 RESTful API 的 情境 中 ， 将 及 时 了 解 与 这 些 操 作 有 关 的 非常 具体 的 实例 。 
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种 理念 乍 看 起 来 显得 特别 奇怪 ， 但 考虑 到 机 密 数 据 从 公司 泄漏 出 来 或 其 员工 访问 危险 网 站 的 情形 ， 也 
就 不 足 为 奇 了 。 另 一 个 重要 实例 是 : 网 络 提 供 商 有 望 通过 使 用 未 在 各 自 网 络 内 使 用 的 源 地 址 ， 来 阻止 
IP 流量 以 预防 IP 地 址 欺骗 。) 

然后 ， 可 以 将 策略 规范 转换 为 规则 。 防 火 墙 必须 对 规则 进行 解释 ， 这 是 逻辑 编程 学 科 所 研究 的 一 
个 值得 正视 的 问题 。 这 里 ， 一 个 众所周知 的 问题 是 特征 交互 〈 涉 及 某 一 特征 的 规则 可 能 与 支持 另 一 特 
征 的 规则 相互 矛盾 ， 进 而 导致 实时 操作 中 的 非 预 期 后 果 )。 预 计策 略 描述 语言 将 有 助 于 明确 指定 这 些 规 
则 ， 并 确保 它们 能 不 按 次 序 来 应 用 这 些 规则 。 

这 样 ， 可 以 使 用 两 套 策略 (从 而 对 应 两 套 规则 ): 用 于 控制 人 网 流量 准 入 的 策略 规定 了 入 口 过 滤 ; 
用 于 指定 哪些 数据 包 不 能 离开 由 防火 墙 保护 的 网 络 的 “出 网 ”策略 规定 了 出 口 过 滤 。 这 两 套 策略 的 区 
别 如 图 5. 11a 所 示 。 | 





实际 上 ， 存 在 两 种 分 别 用 于 处 理 人 网 和 出 网 流量 的 不 同 防火 墙 。 当 运营 商 在 用 户 驻地 设备 ( Cus- 
tomer Premises Equipment, CPE) 中 提供 防火 墙 服务 时 ， 将 其 进行 拆 分 是 合理 的 ， 以 便 入 口 防火 墙 物理 
实体 位 于 运营 商 网 络 内 ， 如 图 5. 11b 所 示 。 采 用 这 种 方式 来 访问 网 络 不 仅 能 够 节省 带宽 ， 而 且 安 全 性 
也 会 得 到 增强 ， 因 为 运营 商 更 有 能 力 缓 解 针 对 企业 的 某 些 拒绝 服务 攻击 。 这 两 点 都 适用 于 家 庭 网 络 ， 
我 们 将 于 本 书 的 后 面 在 网 络 功能 虚拟 化 的 情境 下 对 其 进行 讨论 。 

最 后 ， 当 谈 及 “网 络 边 界 ” 时 ， 应 该 回 到 第 4 章 关 于 VPN (Virtual Private Network， 虚 拟 专用 网 ) 
的 讨论 ， 并 回顾 网 络 实际 上 可 能 是 一 个 群岛 的 事实 ( 见 图 4.2)。 存 在 着 两 个 问题 : 

1) 就 安全 策略 而 言 ， 群 岛 中 的 各 岛 必 须 彼 此 (以 及 与 “大 陆 ”) 无 法 区 分 。 

2) 鉴于 每 个 岛屿 都 被 潜在 的 敌对 水 域 包围 ， 因 而 不 存在 一 种 类 似 防 火 墙 的 东西 能 将 “我 们 与 他 
们 ”区 分 开 来 。 

第 1 个 问题 可 通过 每 个 岛屿 确实 受到 一 种 或 多 种 防火 墙 保护 的 事实 来 解决 一 一 每 种 防火 墙 针对 一 
种 外 部 连接 。 当 然 ， 必 须 在 人 口 和 出 口 访问 方面 实现 相同 的 策略 。 第 2 个 问题 可 以 通过 采用 IPSec 连接 
防火 墙 来 解决 ， 这 样 每 条 隧道 都 是 安全 的 (独立 于 底层 网 络 实现 )。 使 用 防火 墙 的 3 层 VPN 如 图 5. 12 
所 示 。 

现在 ， 准 备 回顾 提供 服务 的 防火 墙 。 在 所 有 这 些 服务 中 ， 最 简单 、 最 古老 的 服务 (无 状态 防火 墙 
服务 ) 只 能 根据 源 IP 地 址 和 目标 IP 地 址 来 过 滤 IP 数据 包 ， 有 时 也 会 根据 协议 类 型 来 过 滤 IP 数据 包 。 


IPSec 隧道 





为 了 举 出 一 个 用 于 说 明 为 什么 要 根据 协议 号 (而 不 仅仅 是 IP 地址 ) 来 限制 流量 的 实例 ， 需 要 简要 
地 介绍 男 一 个 协议 一 一 互联 网 控制 消息 协议 (Internet Control Message Protocol，ICMP) ， 该 协议 在 RFC 
792 中 定义 ， 并 在 其 他 几 份 RFC 中 进行 了 更 新 ， 特 别 是 在 IPv6 方面 。ICMP 拥有 自己 的 协议 号 ( 它 实际 
上 是 1) ， 然 而 ， 由 于 ICMP 不 携带 任何 的 端 到 端 有 效 载 某 ， 因 而 它 不 属于 传输 协议 。 虽 然 ICMP 在 诸如 
ping (该 应 用 允许 确定 主机 是 否 存 在 ) 和 traceroute (该 应 用 能 够 发 现 指向 主机 路 径 上 的 所 有 路 由 器 ) 
等 应 用 中 得 到 充分 利用 ,但 是 其 工作 主要 是 为 了 在 路 由 器 之 间 传 递 可 达 性 问题 。 遗 憾 的 是 ，ICMP 也 可 
用 于 发 起 一 系列 DoS 攻击 ， 从 1997 年 的 smurf 攻击 开始 〈 据 称 是 由 一 名 高 中 学 生发 起 的 ) 。 

如 图 5. 13 所 示 ， 攻 击 针 对 IP 地 址 已 知 的 给 定 服务 器 。 攻 击 者 在 发 送 到 广播 地 址 块 的 ICMP 回应 请 
求 中 对 该 地 址 进行 欺骗。 当 请 求 终 止 于 局 域 网 时 ， 路 由 器 强制 传输 请 求 ， 有 助 于 将 其 转换 为 链 路 层 广 
播 请 求 〈 需 要 主机 啊 应 的 请 求 ) 。 参 与 的 网 络 充当 的 是 放大 器 角色 。 当 放大 器 中 的 所 有 这 些 主机 都 向 服 
务 器 “ 啊 应 ”时 ， 后 者 很 快 就 被 处 理 流 量 所 淹没， 导致 对 其 他 任何 东西 均 是 一 无 是 处 。 大 量 的 数据 流 
也 可 能 压 垮 服务 需 所 依附 的 网 络 。 为 此 ，CERT (Computer Emergency Readiness Team， 计 算 机 应 急 啊 应 
小 组 ) 报告 CA -1995.01 指出 :“ 这 种 攻击 的 中 间 人 和 受害 者 在 其 内 部 网 络 或 它 与 互联 网 的 连接 中 ， 都 
可 能 受到 网 络 性 能 恶化 的 影响 …… 对 于 为 中 间 人 或 受害 者 提供 服务 的 中 小 型 ISP (Internet Service Pro- 
vider， 互 联网 服务 提供 商 ) 来 说 ， 足 够 的 流量 可 能 会 导致 性 能 严重 恶化 。 大 型 ISP 可 能 会 观察 到 主干 网 
性 能 恶化 和 对 等 饱和。 

对 smurf 攻击 的 反应 会 导致 路 由 器 配置 的 变化 ， 以 及 对 Internet 标准 进行 修改 ， 不 要 求 (默认 设置 ) 
指向 广播 地 址 的 数据 包 实 际 转发 给 广播 地 址 。 在 不 采取 这 些 措施 的 情况 下 ， 由 运营 商 负 责 的 IP 分 组 人 
口 过 滤 能 够 防止 运营 商 成 为 攻击 的 放大 器 ， 其 中 卫 分 组 源 地 址 与 发 布 源 地 址 的 网 络 地 址 不 匹配 。 这 是 
由 RFC 2827 规定 的 ， 该 文档 拥有 当前 最 佳 惯 例 的 美称 。 我 们 还 注意 到 ， 通 过 发 送 端 运 营 商 的 出 口 防 火 
墙 来 防止 欺骗 是 所 有 解决 方案 中 最 简单 的 方案 (虽然 它 无 法 阻止 对 该 运营 商 网 络 内 主机 的 攻击 ， 这 反 
过 来 要 求 所 有 出 口 防火 墙 实现 这 一 功能 )。 采 取 的 男 一 种 措施 是 由 网 络 管理 员 对 ICMP 流量 进行 限制 。 
这 应 当 能 够 解释 为 什么 防火 墙 查看 字段 是 可 取 的 。 

除了 ICMP 的 使 用 是 可 有 可 无 的 以 外 ，smurfing 不 是 万 能 的 ， 它 只 是 一 种 承载 攻击 的 手段 。 恶 意 
“请 求 ” 的 放大 (通过 广播 ) 和 多 台 “ 响 应 ”请 求 的 服务 器 的 反应 的 思路 是 足够 抽象 、 足 够 强大 的 ， 
可 以 成 为 创建 大 量 拒绝 服务 攻击 的 一 种 方法 。 
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乔治 : 波 利 亚 ( Coonge Palya) 在 参考 文献 [10] HAIRS: “方法 和 设备 的 区 别 何 在 ? 方法 是 
一 种 你 可 以 使 用 两 次 的 设备 。 当然 ,使 用 同一 方法 编写 smurf. c 程序 的 人 ， 后 来 又 编写 了 fraggle. c 程 
Fe (一 种 比 前 者 更 大 的 程序 ， 但 仍然 只 有 136 行 长 )。 那 种 攻击 完全 没有 使 用 ICMP。 相 反 ， 它 将 UDP 
流量 用 于 与 测试 相关 的 端口 7 A19, wO 7 连接 到 回应 服务 ; 端口 19 连接 到 chargen (= FF ACHE Hh Hh 
议 ) 服务 ， 以 随机 字符 串 的 形式 进行 啊 应 。 

fraggle 攻击 的 效果 与 smurf 攻击 类 似 。 显 然 ， 将 在 所 有 主机 上 禁用 这 些 服务 作为 默认 设置 ， 可 能 会 
阻止 这 种 特定 攻击 ， 但 这 样 的 绪 果 过 多 ， 会 超出 系统 管理 员 预 期 。 除 非 攻 击 在 到 达 防 火 墙 之 前 已 经 阻 
塞 网 络 〈 或 只 是 阻塞 链 路 ) ， 否 则 无 论 做 什么 都 是 徒劳 。 另 外 ， 防 火 墙 可 以 通过 消除 针对 这 些 端口 的 流 
m ( 越 接近 网 络 边界 越 好 ) 和 记录 相应 活动 来 发 挥 作用 (日 志 分 析 磊 可 以 回合 适 的 啊 应 团队 发 出 告 
警 ) 。 更 为 重要 的 是 ， 防 火 墙 在 问题 的 根源 上 始终 有 效 。 在 造成 任何 伤害 之 前 ， 可 以 消除 使 用 欺骗 地 址 
的 数据 包 。 遗 憾 的 是 ， 放 大 攻击 并 没有 如 前 所 述 的 那样 结束 ， 他 们 似乎 无 止境 无 期 限 。 

如 前 所 述 ，DNS 成 为 此 类 攻击 的 目标 。 在 DNS 放大 攻击 ( 见 图 5.14) 中 ,攻击 者 会 欺骗 用 于 打开 
递归 解析 器 的 请 求 ” ， 这 反 过 来 又 使 用 DNS 响应 流量 对 目标 主机 (其 卫 地 址 被 欺骗 ) 进行 泛 洪 。CERT 
通报 TA13 -088A 对 DNS 放大 攻击 进行 了 详细 描述 。 需 要 注意 的 是 ， 构 建 请 求 以 提供 所 有 可 能 的 区 域 
信息 (通过 使 用 ANY 类 型 ) 。 可 悲 的 是 ，DNSSEC 使 事情 变 得 更 加 糟糕 ， 因 为 由 此 形成 的 啊 应 远 远 大 于 
因 签 名 而 不 使 用 DNSSEC 的 啊 应 。 最 后 ， 可 使 用 僵尸 网 络 (可 能 位 于 不 同 的 网 络 中 ) 进一步 放大 效果 ， 
从 而 导致 大 规模 分 布 式 拒绝 服务 (Distributed Denial of Service, DDoS) 攻击 。 

此 类 攻击 的 变 体 也 可 能 涉及 无 法 提供 递归 解析 功能 的 授权 域名 服务 器， 但 在 这 种 情况 下 ， 可 以 通 
过 限制 响应 速率 来 缓解 攻击 。 


O ”开放 意味 着 向 公众 开放 。 通常， 人 们 使 用 服务 提供 商 网 络 内 的 递归 解析 器 ， 且 服务 提供 商 网 络 只 允许 由 该 网 络 内 的 客户 
进行 访问 ， 因 而 可 以 阻止 任何 恶意 活动 的 尝试 。 开 放 解 析 器 项 目 负责 跟踪 开放 递归 解析 器。 
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/ \ 
j Actype=Any, x;.com; \ 
| A:type=Any x.com; \ 
| Actype=Any, x3.com; | 


受害 者 的 IP 地 址 : A 


攻击 者 的 IP 地 址 : X 


图 5.14 DNS 反射 放大 攻击 | 

同时 ， 根 据 IETF 标准 ， 源 下 地 址 验证 是 防止 此 类 攻击 的 最 佳 保 护 措施 ， 但 这 需要 所 有 提供 商 的 合 
作 绝 不 允许 使 用 欺骗 地 址 的 数据 包 离 开 网 络 。 这 里 ， 出 口 防火 墙 是 不 可 或 缺 的 。 为 了 对 抗 DNS 
反射 放大 攻击 ，NIST 建议 防火 墙 在 出 接口 上 跟踪 DNS 请 求 ， 从 不 允许 对 进入 网 络 的 不 存在 查询 进行 
“ 啊 应 ”。 

我 们 将 仅 提供 包 过 滤 的 防火 墙 称 为 无 状态 防火 墙 ， 因为 与 实际 上 遵从 传输 层 连 接 状 态 的 状态 防火 
墙 相 比 ， 无 状态 防火 墙 可 以 在 不 考虑 总 体 流 量 的 情境 下 ， 对 每 个 数据 包 进 行 检查 。 现在 已 经 有 机 会 使 用 
RAS ASS: 人 们 可 能 会 认为 ， 前 一 段 NIST 建议 中 的 实现 方案 实际 上 需要 一 种 应 用 层 状态 防火 墙 ， 因 
为 它 涉及 对 所 有 未 完成 DNS 查询 的 跟踪 。 


5.2.3 状态 防火 墙 wee | 


开发 此 类 防火 墙 的 最 初 动 机 是 缓解 SYN 攻击 ， 本 章 参考 文献 [11] 对 此 类 攻击 进行 了 详细 描述 ， 
其 作者 还 编写 了 IETF 于 2007 年 发 布 的 (信息 类 ) RFC 4987。 该 攻击 利用 了 TCP (Transfer Control Pro- 
tocol ， 传 输 控 制 协议 ) 的 典型 实现 方案 (具体 来 说 ，TCP 连接 建立 阶段 ) 。 

这 里 ， 理 解 发 生 了 什么 与 理解 为 什么 发 生 同样 重要 。 连 接 建立 机 制 的 相对 复杂 性 是 由 同步 发 送 方 
和 接收 方 的 初始 序列 号 值 的 必要 性 引起 的 。 原 始 的 TCP 规范 解释 道 : “对 于 即将 建立 或 初始 化 的 关联 ， 
两 种 TCP 的 序列 号 必须 在 彼此 的 初始 序列 号 上 实现 同步 。 因 此 ,该 解决 方案 需要 一 种 用 于 选择 初始 序 
列 号 (Initial Sequence Number, ISN) 的 适当 机 制 ， 以 及 用 于 交换 ISN 的 简单 握手 协议 。“ 三 次 握手 ， 
是 非常 必要 的 ， 因 为 序列 号 与 网 络 中 的 全 局 时 钟 并 不 关联 ， 且 TCP 的 序列 号 可 能 具有 不 同 的 ISN 选择 
机 制 。SYN 的 第 一 个 接收 方 无 法 获知 数据 包 是 否 为 延迟 的 旧 数 据 包 ， 除 非 它 记 住 并 非 总 是 可 能 的 连接 
上 使 用 的 最 后 一 个 序列 号 ， 因 而 它 必须 要 求 发 送 方 验证 这 个 SYN”, 

图 5. 15 摘 述 了 成 功 建 立 连 接 的 交换 机 。 接 收 器 和 响应 器 的 状态 分 别 保 持 在 三 位 (S, S, R) 中 ， 
表示 是 否 满足 如 下 条 件 : 








O 这 样 做 是 惟恐 读者 认为 可 以 通过 更 改 TCP 来 解决 问题 。 
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<SEQ x>,<SYN> 


<SEQ y>, <SYN, ACK x+1> 


emmm oN 


<ACK y+1>, <data> 








TFT 

2) 通过 发 回 ACK 参数 序列 号 来 由 另 一 方 确认 ， 原 始 值 递增 1 (5, =1); 

3) 接收 到 SYN ( R = 1 )。 

当 双 方 达到 状态 (1, 1, 1) 时 ， 连 接 建立 完毕 。 

在 不 成 功 的 信息 交换 中 ,确认 消息 永远 无 法 到 达 。 在 这 种 情况 下 ， 参 与 各 方 希望 在 相应 定时 器 到 
期 前 返回 到 状态 (0, 0, 0). 

接 下 来 ， 将 重点 关注 响应 主机 (为 了 达到 我 们 的 目的 ， 将 其 看 作 一 台 承 载 攻击 的 服务 器 ) 。 接 收 到 
第 一 条 SYN 消息 【[ 即 向 状态 (0, 0, 1) 的 过 渡 ] 的 主机 分 配对 应 的 存储 器 (通常 为 阵列 单元 )。 当 
然 ， 存 储 块 需要 保存 ， 直 到 连接 返回 到 状态 (0, 0, 0) 。 因 此 ， 存 储 块 需要 保存 到 超时 。 

如 果 太 多 SYN 数据 包 在 足够 短 的 时 间 内 到 达 ， 则 响应 者 将 耗 尽 内 存 ， 这 反 过 来 将 导致 系统 崩溃 或 
至 少 无 法 打开 任何 新 连接 。 为 了 绑 定 服务 器 ， 攻 击 者 可 以 做 到 这 一 点 (而 不 需要 对 最 后 的 ACK 消息 采 
取 进 一 步行 动 ) RFC 4987 引用 了 一 条 有 趣 的 记录 ， 即 本 章 参 考 文献 [7] 的 作者 设想 了 此 类 攻击 ， 并 
在 1994 年 版 中 写 了 一 段 文字 ， 但 后 来 决定 将 其 删除 9 。 

1996 年 ,被 CERT 称 为 “地 下 杂志 ”的 期 刊 对 SYN 泛 洪 攻击 首次 进行 了 描述 。 随 后 ，CERT 发 布 
J CA -1996 -21 报告 。 由 于 攻击 能 采用 欺骗 他 地 址 的 手段 ， 以 分 布 式 方法 有 效 实 施 ， 因而 互联 网 社 
区 的 后 续 行动 具有 过 滤 的 需求 重点 强调 了 提供 商人 口 防火 墙 的 行动 需求 。 遗 憾 的 是 ， 这 一 措施 本 
身 是 不 够 的 ， 因 为 一 旦 被 劫持 成 为 僵尸 网 络 的 一 部 分 ， 则 这 些 攻击 可 能 会 由 看 似 合法 的 主机 实施 。 

其 他 提出 的 措施 只 能 通过 改变 操作 系统 内 核 (TCP 实现 的 地 方 ) 来 实现 。 这 一 特征 可 提供 配置 网 
络 连接 数 ( 半 开 连 接 数 ) 的 能 力 ， 使 得 一 旦 达到 极限 值 ， 则 关闭 半 开 连接 ， 释 放 其 内 存 ， 并 可 能 将 这 
一 动作 与 忽略 SYN 请 求 结合 起 来 。 大 型 服务 器 的 网 络 连接 数 可 能 会 增加 ， 且 定时 器 值 也 可 以 进行 修改 。 

虽然 ， 问 题 是 由 早期 内 存 分 配 引起 的 ， 但 是 潜在 解决 方案 必须 做 一 些 事情 来 推迟 这 一 行动 。 一 种 
高 效 的 技术 〈 在 后 来 的 防火 墙 实现 中 也 暗示 了 这 一 点 ) 是 SYN 缓存 。 在 这 种 技术 中 ， 连 接 建立 之 前 不 
对 实际 内 存 进行 分 配 。 当 然 ， 这 里 的 问题 在 于 它 需 要 在 主机 的 操作 系统 中 进行 〈 非 同 寻 常 ) WEK, 
但 是 存在 多 种 操作 系统 。 

另 一 种 技术 被 称 为 SYN Cookies， 它 使 用 加 密 体制 和 预 留 给 序列 号 的 位 ， 来 对 半 开 连接 状态 进行 编 
码 。 当 连接 完成 时 ， 可 以 在 新 分 配 的 存储 器 插 模 中 重建 状态 。 这 种 技术 的 缺点 是 某 些 TCP 解决 方案 在 
使 用 时 变 得 不 再 可 用 ( 因为 数据 位 被 占用 ) 。 正 如 本 章 参 考 文献 [11] 所 述 ， 可 以 将 这 些 技术 组 合 到 一 


© Bill Rosen 的 原始 叙述 指出 :“ 这 种 被 称 为 SYN 泛 洪 的 技术 可 追溯 到 1984 年 (原文 如 此 )。 如 果 不 是 更 早 ， 则 该 技术 最 早 
就 是 出 现在 Bill Cheswick 和 Steve Bellovin 出 版 的 图 书 《 防 火 墙 和 互联 网 安全 : 击 退 狐 独 的 黑客 》 中 。 “我 们 在 书 中 有 一 
段 话 , “Cheswick 从 贝尔 实验 室 的 办 公 室 告诉 我 ， 我 们 删除 的 原因 是 由 于 我 们 知道 无 法 解决 这 一 问题 。 现 在 ， 我 们 感到 
非常 抱歉 。 当 时 我 们 应 当 把 它 写 进 书 中 。"” 
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个 强大 的 混合 体 中 。 

状态 防火 墙 解决 方案 的 实例 如 图 5. 16 所 示 。 

防火 墙 (大 概 本 身 由 像 SYN 缓存 或 SYN Cookies 这 样 的 技术 来 保护 ) 会 响应 TCP 连接 的 发 起 方 ， 
笠 试 在 啊 应 方 知 道 请 求 相 关 信息 之 前 建立 自己 的 连接 。 如 果 成 功 ， 则 它 建立 与 响应 方 的 男 一 条 连接 ， 
并 从 此 中 继 发 起 方 和 响应 方 之 间 的 数据 ， 而 发 起 方 和 响应 方 都 不 知道 中 间 的 代理 (或 中 间 盒 ) 。 

正如 要 看 到 的 ， 可 以 将 代理 配置 带 到 应 用 协议 中 ,但 是 状态 防火 墙 不 一 定 是 代理 。 在 一 个 不 太极 
端的 例子 中 ,防火墙 可 能 只 能 跟踪 所 有 连接 (通过 维护 所 有 五 元 组 < 源 全 地 址 , 目标 IP 地 址 , 协议 ， 
源 端 口 ,目标 端口 > 的 列表 ) ， 而 不 是 建立 两 个 端点 。 

此 类 防火 墙 仍然 比 无 状态 防火 墙 的 功能 强大 许多 。 例 如 ， 此 类 防火 墙 可 以 支持 一 种 任何 会 话 的 持 
续 时 间 不 能 超过 指定 的 时 间 段 [如果 考虑 根据 连接 持续 时 间 进 行 收费 (特别 是 在 使 用 预付 卡 时 ) ， 则 这 
是 一 种 重要 策略 ] 。 

对 开放 式 连接 的 跟踪 与 NAT 功能 不 谋 而 合 ， 这 一 点 将 在 本 章 的 下 一 节 中 进行 探讨 。 


<SEQ x>, <SYN> 
—- > 
<SEQ y>,<SYN, ACK x+1> 


<ACK y+1>, <data> 


<SEQ x>, <SYN> 








S16 RADHA SH (TCP ERAS) 
5.2.4 WAHAB A eee 
£41 AROSE. HRI RFC 已 经 成 为 IETF 的 传统 2。 为 此 ， 由 Mark Gaynor Scott Brad- 
ner F 2001 年 撰写 的 RFC 3093 在 不 违反 防火 墙 安全 模式 的 情况 下 ， 提 出 了 “防火 墙 增强 协议 (Firewall 
Enhancement Protocol ，FEP)” 来 支持 创新 。 更 具体 地 说 , “建议 ”是 “在 超 文 本 传输 协议 (Hyper Text Trans- 
fer Protocol, HTTP) 上 对 任何 应 用 层 传输 控制 协议 /用 户 数 据 报 协议 (TCP/UDP) 数据 包 进 行 分 层 ， 因 为 HT- 
TP 数据 包 通 常 能 够 通过 防火 墙 。 这 确实 是 一 个 非常 有 趣 的 玩笑 ! 当时 ， 没 有 什么 比 在 面 回 事务 的 应 用 协议 


上 传送 IP 数据 报 看 起 来 更 加 荒诞 不 经 的 了 ， 该 协议 则 在 检索 万 维 网 所 依赖 的 小 文件 ( 称 为 网 页 )。 
本 书 稍 后 将 对 HTTP 进行 讨论 。 这 里 观察 到 (不 必 大 惊 小 怪 ) ，2001 年 荡 诬 事 三 四 年 后 苋 然 成 为 事 


O 也 许 其 中 最 著名 的 就 是 1990 年 4 月 1 AD. Waitzman 发 布 的 RFC 1149 一 一 “信鸽 下 数据 报 传输 标准 ”。 改 编 过 程 可 描 
述 如 下 :“ 将 卫 数 据 报 采用 十 六 进 制 打印 在 纸 卷轴 上 , 每 8 位 由 和 白色 和 黑色 分 开 。 将 纸 卷轴 缠绕 在 信人 钥 的 腿 上 ， 并 用 胶 
带 固定 好 数据 报 的 边缘 。 带 宽 不 能 超过 腿 长 。” 根 据 经 常 引 用 的 IETF 轶 事 ， 当 某 个 网 络 提供 商 在 请 求 注解 文档 中 包含 符 
A RFC 1140 的 问题 时 ， 一 些 供 应 商 在 其 响应 中 声称 遵守 此 类 规定 。 






109 





el 去 计算 技术 与 商业 趋势 


实 上 的 规范 。 事 实 上 ，HTTP 开始 用 作 远 程 过 程 调 用 的 传输 协议 ， 甚 至 用 于 视频 流 。 原 因 在 于 RFC 3093 
中 提 到 的 一 一 HTTP 可 以 不 受阻 碍 地 穿 过 防火 墙 。 此 外 ， 某 些 对 等 应 用 (包括 即时 通信 ) 使 用 端口 
80 一 一 该 端口 通常 预 留 给 HTTP 使 用 。 当 然 ， 所 有 这 一 切 意味 着 HTTP 不 能 再 像 从 前 那样 穿 过 防火 墙 : 
必须 对 “HTTP 消息 ”的 内 容 进行 分 析 。 

活动 内 容 (如 Java 程序 ) 对 恶意 软件 造成 了 重大 威胁 ， 因 而 需要 对 其 进行 检查 。 但 即使 将 “ 正 
常 ” 的 HTTP 方法 用 于 不 良 目 的 (如 引起 缓冲 区 溢出 攻击 )， 且 为 了 处 理 这 一 问题 ， 至 少 验 证 输入 参数 
长 度 是 至 关 重 要 的 。 

因此 ， 应 用 层 防火 墙 已 构建 用 于 HITP、 电 子 邮件 、 与 SQL (Structured Query Language， 结 构 化 查 
询 语言 ) 服务器 和 I 全 语 音 (Voice over IP, VoIP) 应 用 的 交互 。 即 使 是 一 种 看 似 无 害 的 数据 结构 规范 语 
可 扩展 标记 语言 (Extensible Markup Language, XML) 也 提出 了 对 XML 防火 墙 的 需求 ， 主 要 是 要 
了 解 写 人 其 中 的 服务 规范 。 例 如 ， 已 经 开发 了 基于 XML 的 网 络 服务 描述 语言 ( Web Services Description 
Language, WSDL) 来 描述 由 站 点 提供 的 服务 程序 (将 被 远程 执行 ) 。 

将 应 用 层 协 议 有 效 载 荷 的 分 析 称 为 深度 包 检 测 。 但 是 ， 应 用 层 防 火 墙 远 不 止 检查 有 效 载 从 一 项 要 
求 。 实 际 上 ， 在 很 多 情况 下 ， 为 了 理解 有 效 载 荷 ， 需 要 知道 协议 的 特定 状态 。 因 此 ， 应 用 层 防火 墙 通 
常 是 有 状态 的 。 在 极端 版 本 中 ， 应 用 层 防 火 墙 可 充当 代理 的 角色 ， 因 为 它 可 以 终止 相关 协议 ， 并 使 用 
它 所 保护 的 防火 墙 后 面 的 实体 来 重新 启动 其 他 实例 。 这 种 情形 与 图 5. 16 中 描述 的 情形 类 似 。 事 情 可 能 
变 得 相当 复杂 ， 且 这 种 复杂 性 可 能 会 被 (甚至 已 经 被 ) 攻击 者 利用 。 导 致 控制 主机 的 攻击 现在 可 能 会 
发 展 为 对 防火 墙 的 控制 ， 这 不 足 为 奇 ， 因 为 防火 墙 正在 执行 受 保护 主机 应 该 执行 的 协议 ， 且 查看 受 保 
护 主机 可 能 查看 的 数据 。 正 如 尼采 (Nietzsche) 在 本 章 参 考 文献 [12] 中 所 警告 的 : “与 恶 龙 缠 斗 过 
久 ， 自 身 亦 成 为 恶 龙 ; 凝视 深渊 过 久 ， 深 渊 回 以 凝视 。” 

企业 将 防火 墙 部 署 到 分 离 区 域 已 经 变 得 非常 常见 (有 时 甚至 部 署 在 单一 机 构 中 ) 。 这 一 思路 是 在 防 
火 墙 之 后 建立 一 种 完全 受 保护 的 内 部 网 络 (通常 称 为 可 信 区 )， 同 时 还 可 以 维护 男 一 种 称 为 隔离 区 
( Demilitarized Zone, DMZ) 的 网 络 ， 该 隔离 区 根据 不 同 的 策略 运行 。DMZ 的 典型 用 例 是 托管 企业 的 公 
共 Web 服务 器 ”。DMZ 在 不 同 策略 下 运行 ， 因 而 它 与 外 部 世界 和 保护 区 分 开 。 

可 以 使 用 至 少 拥 有 3 个 网 络 接口 的 单一 防火 墙 来 实现 分 区 ， 如 图 5. 17a 所 示 。 一 个 接口 连接 到 外 部 





二 2 
一 之 
A 


到 外 部 世界 < 


a) 使 用 单一 防火 墙 


b) 使 用 双 防 火 墙 


5 ERES pe SX pg. 





O 将 在 下 一 节 进 一 步 河清 为 什么 这 是 必要 的 。 
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世界 ,为 一 个 接口 连接 到 DMZ (这 样 来 自 外 部 世界 的 数据 流 、 输 出 到 外 部 世界 的 数据 流 、 来 自 保 护 区 
的 数据 流 以 及 输出 到 保护 区 的 数据 流 都 通过 该 接口 ) ， 第 3 个 接口 连接 到 可 信 区 。 这 种 配置 是 成 本 最 低 
的 ,但 它 会 带 来 危险 (考虑 到 配置 错误 或 单 点 故障 的 情形 ) 。 

图 5. 17b 中 的 双 防 火 墙 配置 成 本 更 高 ， 但 也 更 加 安全 。 

正如 将 要 描述 网 络 地 址 转换 (NAT) 的 功能 一 样 ， 注 意 到 ， 虽然 它 与 防火 墙 功能 不 同 ,， 但 它 也 通 
党 作为 防火 墙 的 一 部 分 来 实现 。 
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使 用 32 fic IP 地址 字段 ， 全 球 大 约 有 43 亿 个 IP 地 址 一 一 显然 这 不 足以 为 每 个 人 的 计算 机 、 手 机 、 
洗衣 机 、 牙 签 之 类 的 东西 分 配 地 址 。 早 在 20 世纪 90 年代， 大 们 就 已 经 明 自 了 这 一 点 。 虽 然 为 计算 机 之 
外 的 东西 分 配 IP 地 址 的 想法 出 现 得 上 晚 一 些 一 一 为 电话 分 配 P 地 址 的 想法 出 现在 1997 年 左右 ; 为 洗衣 
机 分 配 IP 地 址 并 将 其 作为 智能 电网 计划 一 部 分 的 想法 出 现在 2003 年 左右 ; 为 牙签 分 配 IP 地 址 …… 好 
吧 ， 我 们 推测 ， 牙 签 是 “ 物 联 网 (Internet of Things，IoT) ”中 的 “东西 ”。 

IPv4 仍 在 广泛 使 用 ， 但 需要 探讨 解决 IPv4 地 址 空间 不 足 的 方案 。 这 一 想法 是 按照 一 种 智能 方案 来 
重用 网 络 中 的 现 有 IP 地 址 池 。 

在 这 一 方案 中 ,首先 将 IP 地址 空间 分 为 私有 地 址 和 公 网 地 址 两 部 分 ， 其 中 私有 地 址 仅 在 网 络 内 部 
使 用 ， 即 用 于 网 络 内 通信 。 其 次 ， 对 于 每 个 输出 的 卫 包 ， 其 源 IP 地 址 被 更 改 为 公 网 了 下 地址 。 这 种 地 
址 奉 换 正 是 NAT 盒 的 功能 。 

RA, NAT 盒 可 以 为 通过 它 的 所 有 数据 包 分 配 相 同 的 公 网 地 址 。 因 此 ， 如 果 网 络 中 有 个 实体 ， 
所 有 实体 只 共享 一 个 卫 地 址 ， 则 该 了 正 地 址 可 用 于 外 部 通信 。 该 方案 不 仅 文 持 P 地 址 重用 ， 而 且 还 可 
以 对 NAT 盒 -后 面 的 网 络 地 址 进行 匿名 处 理 ， 如 图 5. 18 所 示 。 
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当然 ， 如 果 没有 引入 新 的 《严重 ) 问题 则 人 们 不 会 放弃 这 一 一 技术 。 网 络 隐私 问题 是 因 需 要 将 输 
入 分 组 的 目的 地 中 地址 转换 成 正确 的 私有 IP 地 址 而 导致 的 。 这 一 问题 可 以 采用 一 种 相当 简单 的 方式 来 
解决 ， 但 解决 方案 本 身 就 是 有 问题 的 : 正如 将 看 到 的 ， 任 何 网 络 外 部 实体 都 不 能 发 起 与 网 络 中 任何 实 
体 的 通信 。 这 违反 了 互联 网 的 主要 原则 。 事 实 上 ， 将 会 看 到 这 一 方案 打破 了 一 些 互联 网 原则 。 但 是 ， 


所 ”虽然 此 功能 绝对 不 能 代替 安全 措施 ， 但 它 确实 有 助 于 提高 安全 性 。 因 此 ， 该 功能 通常 被 称 为 “网 络 隐私 "。 它 支持 网 络 
运营 商 (无论 是 在 企业 界 还 是 在 服务 提供 商 领域 ) 使 内 部 实体 仅 在 需要 时 才能 寻 址 。 因 此 ， 一些 实 体 对 外 部 网 络 来 说 不 
可 寻 址 。 此 外 ， 基 本 的 竞争 信息 ( 内 部 网 络 结构 和 设备 部 署 号 码 ) 也 会 受到 保护 。 
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那些 认为 对 NAT 深恶痛绝 的 人 也 已 经 学 会 (并 教导 他 人 ) 如 何 与 NAT 友好 相处 。 随 着 NAT 部 署 进 一 
步 推进 ,以 及 互联 网 主机 数量 的 进一步 增长 和 了 P 地 址 空间 的 耗 减 ， 新 间 题 及 其 解决 方案 数量 不 断 增 加 。 
然而 ，NAT 盒 正 在 演进 ， 同 时 仍然 服务 于 上 述 两 个 主要 用 途 : 稀缺 P 地 址 的 有 效 管理 ; OARA 
结构 的 模糊 处 理 。 

同时 ， 后 者 的 重要 性 不 可 低估 。 虽 然 在 前 面 的 脚注 中 提 到 了 这 一 点 ， 但 是 需要 对 这 一 问题 进行 扩 
展 。 首 先 ， 在 企业 网 络 〈 如 银行 网 络 或 更 为 明显 的 实例 一 一 军事 网 络 ) 中 ， 由 于 众所周知 的 原因 ， 存 
在 着 一 些 对 外 部 世界 不 可 见 的 主机 。 事 实 上 ,防火墙 可 以 在 这 里 发 挥 作用 , 但 主要 问题 是 这 些 主 机 无 
法 从 互联 网 地 址 空间 进行 寻 址 。 其 次 ， 考虑 到 互联 网 的 设计 方式 ， 主 机 和 路 由 器 都 可 以 通过 IP 地 址 来 
访问 。 当 涉及 运营 商 网 络 时 ， 拥 有 通过 网 络 管理 接口 访问 路 由 器 的 能 力 是 一 件 非常 危险 的 事情 (这 一 
问题 不 应 该 与 直接 连接 对 等 路 由 顺 的 问题 混 清 起 来 ， 后 者 是 在 链 路 层 实现 的 ) 。 在 很 大 程度 上 ，PSTN 
(Public Switched Telephone Network ， 公 共 交 换 电 话 网 络 ) 的 安全 性 比较 高 ， 因 为 其 交换 机 和 其 他 网 络 元 
件 是 不 可 寻 址 的 ， 因 而 无 法 从 外 面 进 行 访问 。 互 联网 服务 提供 商 意 识 到 ， 他 们 最 好 遵循 NAT 支持 的 相 
同 模型 。 

随 着 家 庭 网 络 〈 该 网 络 包含 一 个 部 署 在 家 庭 网 关中 的 NAT 功能 实体 ) 的 发 展 ， 结 合 企业 网 络 的 发 
展 ， 运 营 商 需要 引入 NAT 上 的 NAT， 通 常 称 其 为 运营 商 级 NAT 或 大 规模 NAT. 

在 本 下 的 剩余 篇 幅 ， 将 讨论 : 

1) 私有 IP 地址 的 分 配 ; 

2) NAT 盒 的 架构 与 操作 ; 

3) NAT 存在 的 情况 下 支持 (诸多 现 有 互联 网 协议 ) 运行 的 协议 一 一 交互 式 连 接 建 立 ( Interactive 
Connectivity Establishment, ICE) 协议 、NAT 会 话 穿 透 效 用 (Session Traversal Utilities for NAT, STUN) 
协议 、 使 用 中 继 NAT 穿 透 (Traversal Using Relay NAT, TURN) 协议 ; 

4) 大 型 NAT。 


5.3.1 FAM IP 地址 分 配 kee | 


1994 46, RFC 1597 首次 发 布 了 关于 私有 IP 地 址 分 配 的 权威 指南 ， 它 是 由 代表 互联 网 行业 3 个 重要 
组 成 部 分 一 一 软件 供应 商 、 企 业 网 络 和 互联 网 注册 管理 机 构 的 工程 师 合作 完成 的 。 解 释 引 入 私有 地 址 
SIA AY PCR, CIP 地 址 保护 和 操作 灵活 性 ) RFC 指出 ， 私 有 IP 地 址 的 (不 协调 ) 使 用 已 经 发 生 ， 且 和 警 
告 了 不 良 后 果 : 

“由 于 各 种 原因 ， 互 联网 已 经 遇 到 过 这 种 情形 ， 即 没有 连接 到 互联 网 的 企业 为 其 主机 赋予 卫 地 址 
空间 ， 而 该 地 址 空间 并 非 IANA 分 配给 它 的 。 在 某 些 情况 下 ， 这 一 地 址 空间 已 经 被 分 配给 其 他 企业 。 当 
这 种 企业 以 后 连接 到 互联 网 时 ， 它 可 能 会 产生 非常 严重 的 问题 ， 因 为 P 路 由 存在 歧义 寻 址 的 情况 ,无 
法 提供 正确 的 操作 。 使 用 私有 地 址 空间 为 这 种 企业 提供 了 一 种 安全 的 选择 ， 避 免 一 旦 需要 外 部 连接 可 
能 发 生 冲 突 的 情况 。” 

有 趣 的 是 , 6 年 后 ， 当 技术 人 员 负 责 为 2001 年 3 月 召开 的 正 TF 会 议 (由 朗讯 科技 发 起 的 21 世纪 
首届 IETF RW) 构建 正 TF 网 络 时 ， 亲 眼见 证 了 这 种 冲突 。 贝 尔 实 验 室 和 朗讯 科技 业务 部 门 提供 了 大 
量 专业 知识 ， 且 该 网 络 已 经 通过 了 贝尔 实验 室 的 所 有 现场 测试 。 经 过 设计 和 构建 ， 该 网 络 可 容纳 3000 
多 台 主 机 ， 包 括 有 线 和 无 线 连接 。 然 而 ， 在 部 署 过 程 中 ， 出 现 了 一 种 奇怪 的 现象 ， 即使 网 络 在 两 大 ISP 
上 提供 多 宿主 服务 以 确保 可 靠 性 ， 但 许多 参与 者 还 是 根本 没有 外 部 连接 。 

下 面 介 绍 当 时 空间 发 生 了 什么 事 。 对 于 内 部 IETF 网 络 来 说 ， 朗 讯 科技 使 用 其 私有 空间 的 IP 地 址 ， 
但 相关 IP 地址 的 特定 块 是 1996 年 从 ATAT 开始 实施 后 继承 下 来 的 。 有 些 特 定 块 明显 存在 问题 ， 因 为 
AT&T 员工 愁 记 将 这 些 地 址 从 其 空间 中 删除 。 幸 运 的 是 ， 这 一 问题 在 几 个 小 时 内 就 被 诊断 出 来 ， 但 我 们 
会 永远 铭记 它 所 引起 的 焦虑 。 


O H pak BGP (Border Gateway Protocol ， 边 界 网 关 协 议 ) HEHA Yakov Rechter， 他 当时 在 IBM ( International Busi- 
ness Machines Corporation ， 国 际 商业 机 器 公司 ) 工作 ; IETF 安全 专家 Bob Moskowitz 后 来 联合 主持 IPSec 工作 组 ， 也 参与 
了 所 有 安全 协议 的 开发 ， 并 负责 克莱斯勒 公司 的 安全 ; Daniel Karrenberg 和 Geert Jan de Groot 在 欧洲 网 络 IP 号 码 协调 中 
>, RIPE 是 欧洲 、 中 东 和 中 亚 的 区 域 互 联网 注册 机 构 ; Eliot Lear 在 美国 硅 图 公司 (Silicon Graphics, SGI) 工作 。 
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1996 年 ，( 信 息 类 ) RFC 1597 被 拥有 当时 最 佳 惯 例 美 誉 的 RFC 1918° 所 替代 ， 该 协议 目前 仍然 有 
效 。 按 照 说 明 ，IANA (互联 网 号 码 分 配 局 ) 已 经 为 私有 网 络 预 留 了 以 下 3 类 IP 地 址 空间 块 : 

1) 10. 0.0.0 ~ 10. 255. 255. 255 (10/8 Ai) ; 

2) 172. 16. 0. 0 ~ 172. 31. 255. 255 (172. 16/12 前 级 ) ; 

3) 192. 168. 0. 0 ~ 192. 168. 255. 255 (192. 168/16 前 级 )。 

这 相当 于 分 别 分 配 单 个 A 类 网 络 地 址 、16 个 B 类 连续 网 络 地 址 和 256 个 C 类 连续 网 络 地 址 。 

任何 实体 都 可 以 在 其 域 中 使 用 这 些 网 络 地 址 ， 而 不 向 IANA 或 任何 其 他 人 请 求 :“ 决 定 使 用 本 文档 
中 定义 地 址 空间 中 IP 地 址 的 企业 可 以 在 不 与 IANA 2X Internet 注册 机 构 协 调 的 情况 下 完成 此 类 操作 。 因 
此 ， 地 址 空间 可 以 被 许多 企业 所 使 用 。 这 一 私有 地 址 空间 内 的 地 址 在 企业 内 部 或 选择 在 这 一 空间 进行 
合作 的 一 系列 企业 内 是 唯一 的 ， 因 而 它们 可 以 在 其 私有 互联 网 上 进行 相互 通信 。” 当然 ,这些 地 址 都 不 
能 在 外 部 世界 使 用 ,但 这 是 IANA 和 互联 网 注册 机 构 必 须要 确保 的 。 

相 比 之 下 ， 从 外 部 世界 可 见 和 可 访问 的 任何 实体 都 必须 具有 来 自 全 球 唯一 地 址 空间 的 地 址 。 这 些 
地 址 只 能 由 互联 网 注册 机 构 (依次 由 IANA 来 分 配 地 址 空间 ) 分 配 。 

将 从 私有 空间 分 配 网 络 地 址 的 主机 称 为 私有 主机 ; 同样 ， 将 得 到 全 球 唯 一 地 址 的 主机 称 为 公有 主 
机 。 图 5. 19 对 该 配置 进行 了 摘 述 。 
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位 于 两 个 网 络 A 和 B 中 的 私有 主机 (配置 在 穿 筷 椭圆 形 内 ) 拥有 私有 地址 fa, b, c}, X 
地 址 仅 在 主机 所 在 的 网 络 内 有 意义 。 需 要 注意 的 是 ， 除 了 主机 之 间 进 行 相互 通信 的 能 力 之 外 ， 它 们 可 
以 与 独立 于 该 主机 地 址 的 各 自 网 络 内 的 任何 主机 进行 通信 。 具 有 全 球 唯一 P 地 址 为 X 和 YY 的 主机 拥有 
公有 地 址 。 互 联网 上 的 任何 主机 都 可 以 对 其 进行 寻 址 。 在 图 5. 19 的 特定 实例 中 ，8 台 主 机 只 使 用 了 5 
个 地址。 

主机 的 下 地 址 可 以 由 私有 转变 为 公有 (ZIRA) 。 


OQ 1918. gt。 需要 注意 的 是 ，1918 年 是 第 一 次 世界 大 战 结束 的 一 年 。Bob Moskowitz 告诉 我 们 一 个 引人入胜 的 开发 故事 。 一 
切 始 于 1983 年 ， 在 休斯顿 的 IETF 会 议 上 ， 在 Bob Moskowitz 与 Jon Postel 的 走廊 对 话 中 ，Bob 请 求 4 个 B 类 网 络 地 址 空 
间 ， 因 为 克莱斯勒 公司 ( 当时 Bob 所 在 的 公司 ) 需要 将 这 些 地 址 用 于 工程 、 制 造 和 其 他 机 构 一 一 所 有 这 些 机 构 都 需要 单 
独 的 网 络 。Jon 答复 说 ， 他 只 能 提供 两 个 B 类 地 址 空间 ， 因 为 地 址 正在 耗 减 。 然 后 ，Bob 建议 在 这 种 情况 下 ， 有 必要 
开发 可 在 企业 网 络 中 重用 的 私有 地 址 空间 概念 。 不 敢 相信 ，Jon 回答 说 ， 建 议 Bob 编写 一 份 RFC 来 详细 阐述 这 一 概念 。 
此 时 ， 无 意 中 听 到 这 一 谈话 内 容 并 聆听 了 一 段 时 间 的 Yakov Rechter， 加 入 谈话 并 表达 了 与 Bob 共同 撰写 该 RFC 的 兴趣 。 
这 就 是 RFC 1597 如 何 诞生 的 。 然 而 ， 该 RFC 的 出 版 却 引 起 了 争议 ， 很 快 就 形成 了 两 大 阵营 : 一 个 阵营 支持 开发 私有 地 
址 空间 ， 另 一 个 阵营 反对 开发 秘 有 地 址 空间 。jJon Postel 要 求 两 个 营地 和 平 协商 ， 并 在 最 佳 实践 RFC 中 记录 他 们 达成 的 
共识 。 在 长 时 间 的 讨论 之 后 ， 形 成 了 一 份 协议 ， 新 形成 的 文档 与 RFC 1597 的 区 别 仅 存在 于 描述 私有 地 址 空间 的 陷阱 和 
危险 的 文本 中 。Jon Postel 以 冷 幽 默 而 闻名 ， 然 后 1918 分 配给 新 RFC 作为 文档 编号 ， 声 称 1918 前 的 所 有 其 他 数字 都 被 使 
Al. 然而， 与 RFC 1918 (1996 年 2 月 ) 同时 发 布 的 RFC 有 好 几 个 ， 且 在 IETF 中 没有 人 对 这 一 数字 的 含义 提出 质疑 。 
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当然 ， 不 会 将 私有 网 络 的 路 由 信息 传播 到 外 部 世界 。 边 缘 路 由 器 (或 更 准确 地 说 是 防火 墙 ) 的 一 
项 职责 是 确保 拥有 私有 源 地址 或 私有 目的 地 址 的 数据 包 : 中 不 会 离开 它 所 发 起 的 网 络 ; 外 不 会 进入 任 
何 网 络 。 至 于 职责 人 ， 人 们 不 会 将 边缘 路 由 器 拒绝 接收 具备 私有 P 地 址 的 输入 分 组 或 与 该 地 址 相关 的 
路 由 信息 等 视 为 协议 错误 。 

同样 DNS 资源 记录 或 与 网 络 内 部 私有 地 址 相关 的 其 他 任何 信息 绝 不 能 离开 网 络 。 这 是 由 防火 墙 
执行 的 另 一 种 策略 。 

此 外 ， 利 用 私有 地 址 的 所 有 优势 来 维护 Pv 空间 ， 这 种 方法 的 主要 问题 是 要 将 IP 地 址 设想 为 全 局 
的 。 引 入 私有 地 址 的 事实 表明 ， 它 偏离 了 最 初 的 互联 网 愿景 ， 且 茶 忌 被 打破 。 


5.3.2 NAT 盒 的 架构 与 操作 


正 是 因为 许多 IETF 工程 师 无 法 在 破除 禁忌 (这 一 禁忌 是 指 行业 在 标准 确定 之 前 的 野蛮 发 展 ) 问题 
上 达成 共识 。 虽 然 说 IETF 没有 从 事 NAT 标准 化 工作 不 够 准确 ， 相 反 ， 几 个 工作 组 过 去 在 从 事 且 现在 一 
直 都 在 从 事 NAT 标准 化 工作 。 现 实情 况 是 虽然 IETF 没有 制订 NAT 标准 ， 但 是 它 制 订 了 如 何 与 NAT & 
共存 的 标准 (将 在 下 一 节 中 进行 描述 )。 

这 里 的 微妙 问题 是 架构 本 身 不 一 定 要 进行 标准 化 ， 但 需要 对 协议 进行 标准 化 。 准 则 是 标准 不 需要 
涉及 如 何 构 建 一 个 盒子 ， 它 只 是 用 于 描述 盒子 的 行为 。 虽 然 该 准则 是 不 正确 的 ,但 NAT 盒 就 像 是 出 现 
在 海报 上 的 儿童 ， 用 于 说 明 内 部 结构 和 行为 是 不 可 分 割 的 。 

虽然 1999 年 发 布 的 信息 类 RFC 1631 绝对 不 是 标准 ， 但 它 揭 示 了 需要 实施 的 内 容 。 

这 里 从 NAT 盒 最 小 功能 的 定义 开始 。 它 必须 将 S$ (一 组 私有 源 IP 地 址 ) 转换 为 唯一 的 源 IP Hk i, 
但 这 样 做 的 目的 是 ， 在 接收 到 拥有 目标 地 址 i 的 数据 包 时 ，NAT SS RARE i eS, RMD 
见 ， 在 不 修改 IP 报头 中 其 他 字段 的 情况 下 ， 这 一 目标 无 法 实现 。 唯 一 可 用 于 修改 的 字段 是 源 端 口号 。 
但 如 果 源 端口 号 更 改 ， 则 必须 保存 源 端口 号 和 源 人 地址 。 下 面 看 图 5. 20。 


LE fi (外 部 ) 源 全 地 址 =X”， 





(内 部 ) 源 IP 地 址 =X 5 
源 端口 号 =Y" 


BADEY , ee) E 


i RIPAH 
剩余 IP 数 据 包 


Ys) 





假定 X 和 Y 是 从 网 络 内 部 到 达 NAT 盒 的 人 p 数 据 包 的 私有 源 IP 地 址 和 源 端 口号 。 为 了 确保 未 来 成 
果 能 够 后 向 兼容 ，NAT 盒 必 须 将 (X, Y) 存储 在 转换 表 中 ， 并 将 指针 转换 为 对 于 Y' 的 表格 项 ”。 离 开 
NAT 的 数据 包 现 在 拥有 NAT 盒 的 公有 四 地址 X' 以 及 源 端口 号 Y'。 但 是 既然 现在 IP 报头 已 经 改变 了 ， 
那么 每 个 人 P 报 头 以 及 传输 协议 头 的 校 验 和 都 必须 进行 更 改 。 提 醒 读 者 ， 源 端口 号 是 传输 层 报 头 的 一 部 
分 。 在 这 一 点 上 ， 另 一 个 禁忌 被 打破 一 一 违反 了 分 层 原则 ， 因 为 网 络 层 实体 需要 查看 和 修改 传输 层 
PDU, KRE, NAT 盒 执行 的 是 路 由 器 功能 。 

O 事实 上 ,Y' 可 以 只 是 那个 指针 (数组 索引 i) ， 但 端口 号 选择 的 规则 因 端口 号 随机 化 的 要 求 而 变 得 更 加 复杂 ， 这 表明 通常 

情况 下 可 以 使 用 可 逆 函 数 /， 使 得 i=/(Y)'。 因 此 ， 反 方向 的 转换 是 比较 简单 的 。 
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不 仅 如 此 ， 而 且 几 个 互联 网 应 用 层 协议 也 已 经 违反 了 分 层 原则 ， 因 为 在 采用 开发 和 实现 时 间 都 晚 
于 这 些 协 议 的 通用 资源 定位 符 方 案 的 情形 中 ， 这 些 协议 已 经 承载 了 应 用 协议 有 效 载荷 中 的 IP 地 址 。 为 
lt, RFC 1631 建议 “NAT 还 必须 关注 ICMP 和 FTP， 并 修改 IP 地 址 出 现 的 位 置 。 毋 庸 置疑 ， 还 有 许多 
其 他 位 置 需要 进行 修改 。” 这 是 一 项 相当 复杂 的 任务 ”， 因 为 传统 做 法 是 需要 将 应 nt (如 电子 邮件 
协议 、 多 媒体 会 话 局 动 协议 和 超 文本 传输 协议 ) 指定 为 ASCII 文本 。 这 就 是 打破 一 个 禁忌 如 何 立 即 导 
致 其 他 诸多 禁忌 被 打破 的 情形 …… 

就 输入 流量 而 言 ，NAT 盒 的 行为 是 唯一 确定 的 ， 如 图 $. 21 所 示 。 


目标 IP 地 址 =X， 


— 目标 IP 地 址 =X” 
E pian sy’ 
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剩余 下 数据 包 EE HRPE 
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图 5.21 NAT RANE 


由 于 X' 是 一 个 与 NAT 盒 相关 的 常数 ， 因 而 只 能 使 用 Y' 来 确定 原始 对 (X，Y) 。 

在 这 一 点 上 ， 应 该 清楚 为 什么 采用 这 种 方案 。 在 实体 发 起 联系 之 前 ，NAT 盒 后 面 的 实体 不 能 与 外 
部 世界 有 任何 联系 。 事 实 上 ， 正 如 预期 的 那样 ， 这 一 问题 变 得 更 加 复杂 。 刚 刚 提出 的 转换 方案 要 求 用 
于 保存 (X, Y) 对 的 表 大 小 与 私有 网 络 中 的 主机 数 成 正比 。 对 于 大 型 运营 商 来 说 ， 此 表 实际 上 太 大 而 
无 法 实施 ， 因 而 表 中 条 目 数 必须 小 于 逻辑 最 大 值 。 为 了 满足 这 一 要 求 ,， 条目 必须 在 占用 一 段 时 间 (时 
长 由 时 间 参 数 决定 ) 后 从 表 中 删除 。 这 里 ， 实 现 方案 有 所 不 同 ， 但 无 论 如 何 实现 ，NAT 盒 后 面 的 私有 
网 络 中 实体 外 部 对 话 可 能 永远 无 法 达成 ， 直 至 重新 启动 对 话 。 这 需要 用 于 增加 网 络 流量 “保持 激活 ” 
例 程 ， 而 不 会 带 来 任何 有 效 载荷 。 

由 于 不 断 引 入 新 功能 ， 导 臻 NAT 变 得 越 来 越 复杂 ， 进 而 使 得 这 一 问题 变 得 越 来 越 糟糕 。 重 要 的 是 ， 
需要 注意 转换 机 制 对 于 功能 引入 来 说 是 一 成 不 变 的 。 变 化 的 是 存储 什么 内 容 和 存储 多 长 时 间 。 

这 些 功能 〈 从 未 实现 标准 化 ,但 对 NAT 盒 的 运行 状态 影响 极 大 ) 太 多 而 不 便于 讨论 ， 且 与 功能 有 
关 的 分 类 方法 多 种 多 样 。 为 了 编写 本 书 ， 只 是 暗示 这 里 发 生 了 什么 。 

考虑 私有 网 络 中 的 主机 只 接收 来 自 外 部 主机 的 消息 时 的 要 求 ， 主 机 使 用 这 些 消 息 来 发 起 对 话 。 这 
一 要 求 不 仅 是 合理 的 ， 而 且 为 了 防止 上 一 节 讨论 的 反射 拒绝 服务 攻击 ， 也 必须 实施 这 些 方案 。 

考虑 图 5.22 中 的 情况 。 假 设 私 有 主机 X 与 外 部 主机 A 和 B 开始 对 话 。 当 然 ， 外 部 主机 A AB 可 以 
进行 啊 应 ， 因 为 A AB 知道 支持 它们 识别 私有 主机 X 的 唯一 端口 号 。 但 是 无 法 阻止 (潜在 恶意 ) 主机 
C 得 到 这 个 端口 号 (如 通过 咒 探 主机 B 的 流量 或 简单 地 让 B 泄露 这 一 数字 一 一 这 绝对 不 是 秘密 ， 且 不 
受 密码 保护 )。 一 旦 主机 C 知道 这 个 端口 号 ， 它 就 开始 向 主机 X 发 送 消息 。 根 据 要 求 ，NAT 盒 不 允许 该 
消息 通过 ， ee ee NAT JA lara ptt 

WF NAT & 
F, 还 包括 目的 了 地 址 和 目的 端口 号 。 这 会 会 立即 成 售 增加 表格 的 大小。 





” 当 应 用 有 效 负 载 被 加 密 时 ， 这 一 任务 无 法 完成 。 
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读者 可 能 已 经 注意 到 ， 如 果 考 虑 将 NAT 盒子 与 防火 墙 分 开 ， 则 其 中 的 许多 问题 可 能 会 迎刃而解 。 
然而 ， 这 些 实现 方案 始终 坚持 将 NAT 功能 作为 防火 墙 的 一 部 分 ， 因 而 进一步 模糊 了 本 质 上 不 同 的 功能 
实体 之 间 的 区 别 。 

为 了 应 对 复杂 性 ， 正 TF 成 立 了 NAT 工作 组 , 但 是 它 并 没有 制订 急需 的 标准 。RFC 2663 使 事情 进 一 
步 复 杂 化 ， 它 引入 了 多 种 “风格 ”， 包 括 一 个 NAT 盒 〈 或 两 个 NAT 盒 ) ， 其 中 涉及 DNS。 这 绝对 是 一 
份 有 趣 的 阅读 材料 ， 但 正如 其 他 与 NAT 相关 的 REC 文档 所 提 及 的 ，RFC 2663 属于 信息 类 一 一 它 未 提供 
标准 。 

2001 年 初出 版 的 专著 ”， 对 NAT 架构 和 部 署 进行 了 详尽 的 分 析 ， 对 与 NAT 交互 的 应 用 协议 进行 
了 回顾 ,但 相当 多 的 成 果 (特别 是 将 在 下 一 市 讨论 的 ) 是 在 后 期 开发 的 (开发 动力 首先 源 于 IP 电话 ， 
以 及 后 来 更 为 通用 的 实时 多 媒体 需求 ) 。 

同时 ，IETF 还 成 立 了 用 于 避 障 的 行为 工程 ( Behavior Engineering for Hindrance Avoidance, BE- 
HAVE) 工作 组 ， 旨 在 创建 “支持 IPv4/IPv4 和 IPv6/IPv4 NAT 以 尽 可 能 确定 的 方式 发 挥 作用 的 文档 ”。 
该 工作 组 已 经 完成 历史 使 命 ， 共 编写 了 约 30 份 文档 ， 是 以 填 满 一 个 小 图 书馆 ， 从 而 使 得 专门 研究 NAT 
行为 的 文献 量 接近 专门 研究 人 类 精神 病 学 的 文献 量 ……… 

关于 NAT 的 发 展 简 史 ， 以 及 存在 细微 差别 的 赞成 与 反对 论据 ， 我们 强烈 推荐 大 家 阅读 由 ETF 内 部 
人 员 、RSVP (Resource Reservation Protocol ， 资 源 预 留 协 议 ) 发 明 人 张 丽 霞 撰写 的 参考 文献 “。 以 下 是 
张 博 士 的 观点 之 一 :“ 对 NAT 的 误 判 让 我 们 付出 极 大 代价 。 在 开展 大 辩论 的 同时 ，NAT 部 署 逐 步 展 开 ， 
标准 的 缺失 导致 了 各 种 NAT 产品 间 出 现 大 量 的 不 同行 为 。 在 此 期 间 ， 人 们 还 开发 出 诸多 新 的 互联 网 协 
议 …… 他 们 所 有 的 设计 均 基于 P 架构 的 原始 模型 ， 其 中 IP 地址 被 假设 为 全 球 唯一 且 可 访问 的 。 当 这 些 
协议 准备 用 于 部 署 时， 它们 面 对 的 是 一 个 与 其 设计 不 匹配 的 世界 。 这 些 协 议 不 仅 要 解决 NAT 穿 透 问题 ， 
而 且 还 要 提供 用 于 处 理 各 种 NAT 盒 行为 的 解决 方案 。 

“行为 ”一 词 在 这 里 是 关键 ， 因 为 只 是 弄 清 NAT 盒 下 的 映射 而 无 法 保证 NAT 穿 透 。 我 们 已 经 非 正 
式 地 描述 了 行为 之 间 的 差异 。 在 RFC 3489 (WEER) 中 ， 作 者 采用 了 早期 (2003 €) 尝试 用 于 表征 
此 类 行为 的 成 果 : 

1) 使 用 完全 圆锥 形 NAT， 外 部 主机 可 以 在 无 先决 条 件 的 情况 下 向 内 部 主机 发 送 数据 包 。 

2) 使 用 受 限 圆锥 形 NAT， 外 部 主机 无 法 发 起 与 内 部 主机 的 对 话 。 只 有 当 它 被 告知 特许 时 ， 它 才能 
说 话 。 换 句 话 说 ，NAT 盒 跟 踊 内 部 主机 先前 发 送 消息 的 目标 四 地 址 ， 并 支持 仅 来 自 那 些 地 址 的 流量 。 

3) 使 用 端口 受 限 圆锥 形 NAT， 先 前 的 限制 条 件 被 限定 为 仅 支持 通过 对 话 发 起 端口 进行 响应 。 这 
E, NAT 盒 跟 踪 内 部 主机 先前 发 送 消息 的 数 对 (目的 下地 址 ， 目 的 端口 号 ) ， 并 支持 与 上 述 数 对 匹配 
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的 〈 源 下地 址 ， 源 端口 号 ) IP 数据 包 。 

4) 使 用 对 称 型 NAT， 表 项 是 会 话 〈 源 IP 地 址 ， 源 端口 号 ,目的 了 P 地址 ， 目 的 端口 号 )， 且 每 次 
会 话 均 被 映射 到 不 同 的 端口 号 上 。 

2007 年 ， 针 对 单 播 UDP 数据 包 ，IETF 发 布 了 关于 NAT 行为 的 最 佳 实践 REC 4787, REC KU: “FE 
某 些 情况 下 ， 同 一 NAT 将 表现 出 不 同行 为 ， 这 一 事实 使 得 NAT 的 分 类 变 得 更 加 复杂 。 这 已 经 在 用 于 保 
护 端 口 或 拥有 用 于 选择 端口 而 不 是 空闲 端口 特定 算法 的 NAT 上 得 到 印证 。 如 果 NAT 希望 使 用 的 外 部 站 
口 已 经 被 男 一 个 会 话 使 用 ， 则 NAT 必须 选择 不 同 的 端口 。 这 会 导致 针对 这 种 冲突 情况 的 不 同 代 码 路 径 ， 
进而 导致 不 同行 为 的 出 现 。 ”一 个 糟糕 的 结论 是 ， 正 TF 不 是 为 NAT 和 领先 行业 制定 标准 ， 而 是 对 无 标 
准 状态 束手无策 。 越 来 越 大 的 文件 出 现 ， 人 和 偶尔“ 作废 ”( 原 文 如 此 ) 的 早期 文档 ， 每 份 文档 都 接近 TCP 
规范 的 长 度 (该 规范 是 迄今 为 止 互 联网 中 最 复杂 的 规范 ) 。 这 些 文档 的 可 读 性 不 高 ， 部 分 是 因为 所 理解 
的 NAT 早期 尚未 开发 的 状态 与 描述 NAT 的 文档 所 写 状 态 相称 …… 

现在 ,讨论 用 于 处 理 NAT 穿越 问题 的 方法 。 


5.3.3 与 NAT 闪存 tke 


1999 年 发 布 的 RFC 2663 中 描述 的 一 种 早期 机 制 是 相当 简单 的 ， 且 目前 仍 在 使 用 。 我 们 称 其 为 应 用 
级 网 关 (Application Level Gateway, ALG), RFC 2663 将 ALG 描述 如 下 : 

“应 用 级 网 关 (ALG) 是 与 应 用 有 关 的 转换 代理 ， 它 支持 某 个 地 址 域 中 主机 上 的 应 用 能 够 透明 地 连 
接 到 另 一 个 不 同 域 中 在 主机 上 运行 的 应 用 。ALG 可 以 与 NAT 进行 交互 以 建立 状态 ， 使 用 NAT 状态 信 
息 ， 修 改 与 应 用 相关 的 有 效 载荷 ， 并 执行 任何 其 他 必要 的 操作 ， 来 使 应 用 在 不 同 地 址 域内 运行 。 

其 实 ， 这 种 想法 非常 简单 。 该 机 制 与 支持 臭 棋 竹 子 (事实 上， 可 能 是 一 位 甚至 不 知道 如 何 下 横 的 
A) 同时 与 世界 上 两 位 最 好 的 棋 手 下 棋 的 情形 是 完全 一 样 的 〈 假 设 X 执 白 ，Y 执 黑 ) ， 最 终 赢 得 至 少 一 
个 回合 或 两 次 和 局 。 

为 了 达到 这 一 目标 ， 臭 棋 签 子 将 通过 重复 X 的 第 一 步 来 开始 与 Y 的 游戏 ， 然 后 通过 重复 Y 在 游戏 
中 针对 X 的 走 棋 方法 ， 依 次 类 推 。 在 现实 中 ， 所 有 这 一 切 都 意味 着 是 X 与 Y 在 一 起 下 棋 。 如 果 游 戏 和 
局 ， 则 这 意味 着 自 棋 繁 子 和 了 两 局 ; 如 果 游 戏 赢 了 ， 则 这 意味 着 臭 棋 竹子 赢 了 一 局 〈( 输 了 另 一 局 ) P 
间 人 的 力量 是 无 穷 的 ! 

这 正 是 ALG 的 工作 原理 ， 如 图 $. 23 所 示 。 在 主机 X 上 运行 的 进程 总 能 启动 对 话 (因为 它 位 于 私有 网 
络 内 ) ， 认 为 它 正 在 与 主机 Y 上 的 对 话 者 进行 会 话 。 相 反 ，ALG 通过 维护 两 大 进程 一 一 一 个 模拟 从 站 到 X 
的 进程 ， 一 个 模拟 从 X (配置 有 NAT 公有 地 址 ) BY 的 进程 ， 将 自己 插入 到 会 话 中 间 。ALC 不 仅 能 够 复 
制 数据 ， 而 且 还 可 以 执行 防火 墙 功 能 ， 修 改 甚至 审查 数据 包 。 为 此 ，ALG 是 一 种 状态 防火 增 。 
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在 介绍 NAT 径 透 的 其 他 解决 方案 之 前 ， 应 该 强调 一 个 事实 ， 即 只 有 NAT 屏蔽 网 络 中 的 主机 才能 与 
外 部 任何 主机 进行 对 话 ， 这 意味 着 位 于 不 同 NAT 屏蔽 网 络 中 的 两 台 主 机 之 间 无 法 进行 通信 。 (再 次 看 
到 突破 终端 原则 导致 了 一 连 串 影响 深远 的 后 果 )。 

巧合 的 是 ， 这 也 是 P 电话 发 展 最 初 面临 的 一 个 主要 问题 (与 本 章 参 考 文献 [15] 中 描述 的 PC 到 
PC 的 情形 相同 ) 。 有 趣 的 是 ， 当 前 的 , IETF 成 立 了 则 在 消除 插件 、 支 持 
在 浏览 器 之 间 直 接 启 用 多 媒体 流 的 基于 Web 浏览 器 的 实时 通信 (RTCWeb) 工作 组 ,该 工作 组 在 其 特 
许 项 目 一 一 “针对 防火 墙 和 NAT 穿 透 定义 解决 方案 : 协议 和 API 要 求 ” 上 耗费 了 大 量 精 力 。 

从 让 电话 的 发 展开 始 ，NAT 穿 透 的 目标 就 是 双重 的 : DER NAT 盒 隐 藏 的 实体 ; 外 为 防火 墙 中 的 
必要 端口 建立 一 个 针 孔 ”。 发 现 过 程 是 最 难处 理 的 问题 。 它 拥有 多 种 解决 方案 ， 其 中 的 一 些 解决 方案 可 
能 在 某 些 情况 下 有 效 ， 但 在 其 他 情况 下 无 效 。 

从 最 简单 的 解决 方案 开始 ， 这 些 方案 总 是 有 效 的 。 缺 点 是 它 成 本 过 高 ， 且 可 能 在 规模 方面 不 切实 
际 。 我 们 将 该 解决 方案 称 为 使 用 中 继 NAT FA (TURN), RFC 5766 对 该 方案 进行 了 描述 。TURN 最 初 
设计 用 来 作为 IP 电话 的 一 部 分 ， 与 会 话 发 起 协议 (Session Initiation Protocol, SIP) 和 会 话 描述 协议 
(Session Description Protocol ，SDP) ”协同 工作 ， 但 是 它 的 应 用 范围 更 广 ， 稍 后 将 进行 讨论 。 

图 5. 24 提出 了 一 种 想法 : 让 中 央 ( 即 公众 可 寻 址 的 ) 服务 兹 充当 中 继 点 ， 将 两 台 位 于 不 同 网 络 中 
被 NAT 隐藏 的 主机 (或 对 等 体 ) 连接 起 来 。 每 个 对 等 体 都 可 以 建立 与 中 继 服 务 器 的 连接 ， 然 后 中 继 服 
务 器 将 中 继 数 据 包 ， 这 样 能 够 确保 对 等 体 进行 相互 通信 。 








go oe EREET TEETE 
常 大 的 容量 。 如 果 对 等 体 可 以 在 它们 之 间 建 立 多 媒体 传输 连接 ， 能 够 使 得 中 继 仅 用 于 初始 信 令 〈 它 需 
要 的 带宽 和 处 理 能 力 都 不 高 ) ， 则 这 一 要 求 可 以 被 大 大 放宽 。 遗 憾 的 是 ， 这 并 不 总 是 可 能 发 生 的 。 稍 后 


加 ”遗憾 的 是 ， 针 和 孔 是 一 个 常用 但 定义 含糊 的 术语 ， 因 为 NAT 和 防火 墙 概念 交织 在 一 起 。 为 了 编写 本 书 ， 将 其 定义 为 NAT 
转换 记录 中 内 部 主机 的 端口 。 通 过 启动 对 话 ， 主 机 会 创建 一 个 针 孔 〈 主机 可 以 通过 该 针 孔 返回 ) 。 这 里 的 问题 是 防火 墙 
功能 可 能 会 禁止 某 些 端口 的 流量 ， 因 而 NAT 功能 必须 指示 防火 墙 功能 “打开 针 孔 ” 。 有 时 ， 该 指令 可 能 会 对 防火 墙 策略 
形成 干扰 。 

O ”会 话 发 起 协议 (SIP) 设计 用 于 多 媒体 会 话 控制 。SIP 现 已 广泛 应 用 于 企业 (SIP 电话 ) ， 它 拥有 重要 的 电信 和 应用， 最 终 
实现 了 3GPP IP 多 媒体 子 系统 (IP Multimedia Subsystem，IMS) ， 其 中 SIP 是 核心 协议 。SDP 几乎 不 能 算是 协议 ， 而 是 一 
种 简单 的 ASCH 文本 文件 ， 它 列 出 了 参与 会 话 的 进程 属性 。 这 些 属性 包括 IP 地 址 和 端口 号 ， 它 们 后 期 被 实时 传输 协议 
(Real Time Transport Protocol , RTP) 和 实时 控制 协议 (Real Time Control Protocol, RTCP) 应 用 于 媒体 会 话 中 。 本 童 参考 
文献 [15] 对 这 些 协 议 进行 了 详细 介绍 ， 并 描述 了 它们 在 建立 和 维护 多 媒体 会 话 中 的 位 置 。 还 有 许多 专门 针对 SIP 和 
IMS 的 专著 。 
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会 对 这 一 点 进行 讨论 。 


现实 生活 中 使 用 的 是 上 述 模型 的 变 体 。 使 用 中 继 NAT 穿 透 (TURN ) 是 支持 图 5. 25 所 示 方 案 的 协 
议 名 。 








要 的 是 ， 需 要 注意 TURN 服务 硕 不 是 汇集 点 。 其 操作 是 不 对 称 的 〈 与 电话 交换 机 非常 类 似 ) ， 因 
为 TURN 客户 端 必 须知 道 它 希望 通信 的 对 等 体 的 全 地 址 和 端口 号 。 该 信息 可 以 通过 对 等 体 发 现 依托 真 
正 的 汇聚 服务 器 〈 如 对 等 体 注 册 的 SIP 服务 器 ) 来 发 现 ， 或 者 可 以 通过 电子 邮件 或 类 似 带 外 方式 进行 
分 发 。 接 着 ， 需 要 TURN 服务 句 的 根本 原因 是 只 要 它 是 公众 的 、 已 知 的 ， 它 就 拥有 比 其 客户 端 更 高 的 
穿 透 防火 坪 概 率 。 为 此 ， 仅 当 客户 端 无 法 能 到 达 对 等 体 时 ， 它 才 求 助 于 TURN 服务 器 。 

TURN 协议 仅 在 客户 端 和 TURN 服务 器 之 间 使 用 ， 且 必须 由 客户 端 启 动 。 客 户 端 可 以 从 配置 或 通过 
DNS 得 到 TURN 服务 的 IP 地 址 和 端口 号 (SRV 参数 的 值 为 TURN ) ， 也 可 以 通过 任意 播 地 址 来 访问 
TURN HRA i 0 

客户 端 使 用 TURN 命令 来 创建 和 控制 TURN 上 的 数据 结构 〈 称 之 为 分 配 ) TURN 服务 器 是 客户 端 
布 望 进行 通信 的 所 有 对 等 体 的 切换 点 。 许 多 互联 网 协议 的 情形 就 是 这 样 ，TURN 服务 器 定义 了 一 种 保持 
激活 机 制 : 只 要 客户 端 在 指定 时 间 段 内 重复 刷新 请 求 ， 则 需要 保存 分 配 。 客 户 端 还 指定 对 等 连接 的 权 
Ro WE, TURN 服务 右 不 与 任何 对 等 体 建立 连接 一 一 所 有 与 对 等 体 的 通信 都 是 采用 UDP 完成 的 。 

客户 靖 将 应 用 数据 封装 在 TURN 消息 中 。TURN 服务 器 提取 这 些 数据 ， 并 通过 UDP 进行 发 送 。 当 
对 等 体 癌 为 一 个 方向 发 送 数 据 时 ，TURN 服务 器 把 数据 包含 在 TURN 消息 中 ， 并 将 其 中 继 到 客户 端 。 

寻 址 问题 可 通过 分 配 来 解决 ， 该 分 配 包含 客 户 端的 传输 地 址 〈 即 [IP 地 址 ， 端 口 ] 对 )。 这 是 指 
问 对 等 体 的 所 有 消息 中 使 用 的 源 地 址 ， 因 而 成 为 来 自 对 等 体 消息 的 目的 地 址 。TURN 消息 总 是 包含 已 经 
是 消息 源 的 对 等 体 指示 。 

回 到 原来 的 问题 : 使 用 硬 编码 的 内 舱 P 地址 和 端口 号 的 应 用 协议 (如 SIP BK SDP) 在 NAT 方 面 能 
做 些 什 么 ? NAT 能 改变 协议 头 ， 而 无 法 改变 内 内 数据 ? 除非 NAT 发 现 其 外 部 下 地 址 和 端口 号 码 ， 和 否则 
它 用 处 不 大 。 
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顺便 提 一 句 ， 随 着 NAT 相关 出 版 物 的 大 量 出 现 ， 术 语 似乎 存在 某 些 不 一 致 之 处 。 有 些 规 范 将 外 部 
传输 地 址 的 组 合 称 为 映射 地 址 ， 还 有 一 些 规范 将 其 称 为 反射 地 址 。 在 本 闻 的 剩余 部 分 ， 将 使 用 后 一 个 
术语 ， 因 为 这 是 设计 用 于 解决 手头 问题 的 协议 中 使 用 的 术语 。 该 协议 的 名 称 是 NAT 会 话 穿 透 效用 
(STUN ) 。 

2003 年 ，STUN 协议 第 1 版 在 RFC 3489 中 发 布 。 那 时 ，S 实际 上 代表 “简单 ”， 协 议 的 名 称 是 通过 
网 络 地 址 转换 器 (Network Address Translator, NAT) 实现 的 用 户 数据 报 协 议 (UDP) 的 简单 穿越 。 可 以 
将 STUN 描述 为 “一 种 轻 量 级 协议 ， 它 用 于 支持 应 用 发 现 NAT 及 其 与 公共 互联 网 之 间 的 防火 墙 的 存在 
和 类 型 。 碰巧 事情 并 不 那么 复杂 (或 者 至 少 与 原始 互联 网 设计 中 表现 出 来 的 一 样 简单 直接 )。5 年 后 ， 
新 的 RFC (RFC 5389) 发 布 。 它 已 经 被 “淘汰 ” (原文 如 此 2 ) RFC 3489， 那 时 人 们 称 之 为 “经 典 
STUN”。 发 生 巨 变 的 原因 是 “从 REC 3489 出 版 以 来 的 经 验 发 现 ， 经 典 STUN 根本 无 法 很 好 地 工作 ,无 
法 成 为 可 部 署 的 解决 方案 。” 为 此 , “经 典 STUN 无 法 提供 用 于 发 现 它 实际 上 能 否 正 常 工作 的 方式 ， 且 
在 无 法 正常 发 挥 作用 的 场合 不 能 提供 补救 措施 。 同 时 ， 人 们 发 现 针对 NAT 类 型 分 类 的 经 典 STUN 算法 
存在 缺陷 ， 因 为 许多 NAT 不 能 完全 符合 所 定义 的 类 型 。 ”还 存在 着 一 种 安全 漏洞 (在 某 些 情况 下 ， 映 
射 地 址 还 可 能 会 被 欺骗 )。 

我 们 认为 ， 在 这 种 经 验 之 后 ，IETF 开始 阻止 在 其 协议 名 称 中 使 用 “人 简单” 和“ 轻 量 级 ”等 词 。 当 
然 ， 不 存在 任何 关于 NAT 的 简单 介绍 。 

然而 ，STUN 的 思路 非常 简单 ， 如 图 5. 26 所 示 : 要 获得 其 反射 地 址 ， 在 主机 上 运行 的 应 用 进程 应 
当 只 向 STUN 服务 器 发 送 一 条 请 求 ， 然 后 STUN 服务 器 使 用 有 效 负 载 中 的 反射 地 址 进行 响应 。 的 确 ， 它 
像 看 镜子 一 样 简 单 ! 


“你 是 个 美女 : 
你 的 反射 地 址 是 [X,Y]!” 





STUNIRF tit 





导致 STUN 初始 设计 复杂 并 最 终 破坏 STUN 初始 设计 的 是 NAT 盒 拒绝 根据 预测 的 逻辑 采取 行动 。 有 
些 人 当即 认为 互联 网 泡沫 已 破 , 但 其 他 人 出 于 现实 政治 需要 ， 仍 在 极力 推崇 互联 网 。 

RFC 3489 选择 放弃 提供 完整 解决 方案 的 想法 ， 而 是 将 STUN 视 为 一 种 包含 多 种 已 定义 “用 法 ”( 即 
可 应 用 STUN 的 特定 情况 ) 的 工具 。 此 外 ，STUN 协议 目前 可 在 TCP 和 UDP 以 及 运行 在 TCP 之 上 的 传 
输 层 安全 (Transport Layer Security, TLS) 协议 上 使 用 。 

该 协议 支持 请 求 /响应 事务 和 指示 (该 指示 不 需要 响应 )。 同 时 ， 指 定 的 单一 方法 是 绑 定 。 在 事务 


O “淘汰 ”是 RFC 系列 规范 的 术语 。 根 据 传统 ， 当 对 某 份 REC 进行 修改 后 ， 人 们 不 再 继续 使 用 相同 的 RFC 编号 。 如 果 修 
改 只 是 一 种 更 新 ， 则 旧 RFC 会 被 标记 为 “更 新 "”， 但 是 当 旧 RFC 不 再 有 效 时 ， 它 会 被 标记 为 被 新 RFC“ 淘 汰 ”。 
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中 ， 客 户 端 使 用 绑 定 来 查找 它 所 绑 定 的 反射 地 址 。 例 如 ， 指 示 可 以 用 于 使 绑 定 保持 激活 状态 

STUN 的 重要 特征 之 一 是 其 消息 可 以 与 其 他 协议 的 消息 进行 复 用 。 为 了 确保 解 复 用 的 正常 进行， 需 
要 特别 生成 事务 关联 IDE 〈 称 为 魔法 饼干 ) ， 这 是 用 于 避免 歧义 的 一 个 字符 串 。 (存在 着 一 种 扩展 方 
案 ， 它 在 同一 任务 中 使 用 指纹 属性 来 协助 完成 任务 o) 

STUN 的 一 个 有 趣 的 功能 与 功能 强大 的 NAT RAK, NMT 盒 会 尝试 检测 内 置 传输 地 址 ， 并 自行 进 
行 地 址 重 写 。 因 此 ， 需 要 一 种 代码 混 消 技术 : STUN 服务 器 对 反射 地 址 的 值 和 魔 饼 的 一 部 分 应 用 异 或 
(Exclusive OR, XOR) 位 运算 ”， 运 算 结果 最 终 作 为 反射 地 址 值 进行 发 送 。 

STUN 通过 提供 认证 和 完整 性 检查 机 制 来 解决 安全 问题 。 这 些 机 制 是 可 选 的 一 一 它 取决 于 “用 法 ” 
选择 。 它 们 基于 两 种 凭证 机 制 : 使 用 预 置 用 户 名 和 密码 的 长 期 凭证 机 制 ; 使 用 通过 带 外 交换 来 共享 的 
短期 凭证 机 制 。 采 用 任何 一 种 机 制 ， 均 可 以 通过 挑战 /密码 响应 来 实现 认证 ， 并 从 密码 导出 用 于 完整 性 
检查 的 密 钥 。 

正如 前 面 描述 的 其 他 请 求 / 啊 应 协议 一 样 ，STUN 可 用 于 放大 分 布 式 拒绝 服务 攻击 ， 但 攻击 的 性 质 
与 之 前 所 看 到 的 不 同 。 攻 击 者 不 是 发 送 ( 概率 相当 低 ) 伪造 的 响应 和 为 多 个 客户 端 提供 其 反射 地 址 ， 
而 是 需要 为 多 个 客户 端 提供 攻击 目标 。 一 旦 客户 端 (希望 在 这 个 地 址 上 收 到 其 巨大 的 视频 流 ) 将 地 址 
提交 给 其 对 等 体 ， 则 所 有 流量 将 被 指 问 受害 者 。RFC 5389 指出 ， 为 了 实施 攻击 ， 攻 击 者 需要 将 自己 插 
人 到 STUN 服务 器 和 多 个 客户 端 之 间 。 

如 果 攻 击 者 (再 次 充当 STUN 服务 器 和 客户 端 之 间 的 中 间 人 ) 为 客户 端 提供 伪造 的 传输 地 址 ， 则 
可 以 执行 更 简单 的 DoS 攻击 来 “压制 ”客户 端 。 这 种 攻击 并 不 是 STUN 特有 的 ， 因 为 潜在 攻击 者 也 可 
以 拒绝 为 客户 端 提供 其 他 服务 。 攻 击 者 可 以 通过 向 客户 端 提供 自己 的 传输 地 址 来 轻松 地 修改 攻击 的 性 
质 ， 从 而 可 以 镭 取 流 问 客户 端的 流量 。 

更 为 严重 的 攻击 是 攻击 者 假扮 客户 端的 身份 。 然 而 ， 这 是 一 个 比 STUN 更 为 常见 的 问题 ， 且 其 解决 
方案 存在 于 分 发 和 保护 共享 机 密 的 手段 之 中 。 

迄今 为 止 ， 还 没有 讨论 如 何 发 现 STUN 服务 器 的 问题 ， 这 是 讨论 的 最 后 一 个 与 STUN 相关 的 问题 。 
需要 注意 的 是 ， 当 STUN 进行 复 用 时 ， 服 务 器 发 现存 在 着 问题 ，RFC 5489 定义 了 一 种 可 选 的 DNS 过 程 : 

“ 当 客 户 端 硕 望 对 接受 绑 定 请 求 / 响 应 事务 的 公众 互联 网 中 的 STUN 服务 器 进行 定位 时 ，SRV 服务 名 称 
为 stun。 当 客户 端 希 望 对 通过 TLS 会 话 接受 绑 定 请 求 /响应 事务 的 STUN 服务 器 进行 定位 时 ，SRV 服务 
名 称 为 stuns。STUN 用 法 可 能 定义 了 其 他 DNS SRV 服务 名 称 。 

TURN 和 STUN 服务 吉 的 实现 存在 于 开源 中 ， 这 使 得 它们 在 云 中 部 署 的 场景 中 特别 有 用 。 

作为 本 节 最 后 一 个 主题 ， 来 探讨 一 下 使 用 NAT 盒 所 融 来 的 新 复杂 性 。 如 前 所 述 ，NAT 盒 的 大 小 不 
能 超过 61440° 。 物 理 内 存 限 制 是 另 一 个 约束 条 件 ， 这 可 以 使 条 目 数量 更 少 。 处 理 此 问题 的 一 种 方法 是 
在 网 络 边界 部 署 不 同 的 NAT 盒 ， 以 使 目标 IP 地 址 的 不 同 前 级 使 用 不 同 的 NAT 。 图 5. 27 充分 反映 了 这 
种 情况 。 

因此 ， 给 定 网 络 内 主机 上 的 进程 可 能 具有 不 同 的 反射 地 址 ， 该 地 址 取决 于 它 从 哪 台 TURN 服务 器 
获得 地 址 。 

现在 ， 准 备 描述 一 种 使 用 STUN 和 TURN 协议 实现 NAT 穿 透 的 决定 性 机 制 。 这 种 机 制 的 名 称 是 交 
互 式 连接 建立 (Interactive Connectivity Establishment, ICE), ICE 绝对 不 是 通用 的 ， 因为 它 仅 适用 于 一 
组 所 谓 的 提议 /应 答 协议 ， 这 些 协议 文 持 两 个 进程 使 用 SDP 达成 多 媒体 会 话 的 共识 。SIP 是 这 样 一 种 协 
议 ， 且 它 充当 用 于 定义 提议 /应 答 族 共同 特征 的 原始 灵感 。 为 了 编写 本 书 ， 可 以 假设 所 讨论 的 协议 确实 
是 SIP。 


O ” 异 或 运算 的 定义 如 下 : XOR (0, 0) =XOR (1, 1) =0, XOR (1, 0) =XOR (0, 1) =1。 对 于 任意 两 个 字符 串 A 
和 B，XORLXOR(A,B),B] =A， 在 给 定 XOR (A, B) 和 B 的 情况 下 ， 这 使 得 A 值 变 得 微不足道 。 该 技术 实际 上 形成 
了 一 次 性 密码 算法 。 


O 由 于 端口 号 (人口 的 密 钥 ) 的 长 度 是 16 位 ， 且 前 4096 个 端口 是 预 留 的 ， 因 而 条 目 数 的 上 限 等 于 2" -4096 =61440。 
O 通过 使 用 术语 NAT 而 不 是 NAT 盒 ， 这 里 强调 ， 实际 的 转换 过 程 是 不 同 的 。 ( 两 个 不 同 的 NAT 盒 可 以 执行 相同 的 转换 功 
能 ) 
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ICE 是 在 RFC 的 ICE TITI H 标 是 找到 最 适合 在 两 个 对 等 体 之 间 建立 RTP ( Real 
Time Transport Protocol ， 实 时 传输 协议 ) / RTCP (Real Time Control Protocol ， 实 时 控制 协议 ) 会 话 的 两 
个 传输 地 址 。 因 此 ， 假 设 对 等 体 之 间 采 用 SIP 进行 通信 ，SIP 知道 如 何 穿越 NAT. ( 当然 ， 用 于 该 信 令 
的 传输 地 址 可 能 不 同 于 那些 最 适合 采用 UDP 来 承载 媒体 流 的 传输 地 址 )。 这 些 传输 地 址 可 以 通过 SDP 
进行 交换 。ICE 通过 累积 传输 地 址 ， 测 试 它 们 的 连接 性 能 ， 并 选择 最 优 连接 来 实现 这 一 目标 。 

总 共存 在 着 3 种 类 型 的 地 址 ， 如 图 5. 28 所 示 。 


服务 器 反射 地 址 (来 自 STUN) 








1) ) 本 地 地 址 ( 即 与 主机 的 间 络 接口 卡 相关 的 传 凡 瑟 下 )， 

2) 服务 器 反射 地 址 〈 即 从 NAT 盒 另 一 侧 的 STUN 服务 器 获取 的 地 址 ) ; 

3) 中 继 地 址 〈 从 TURN 服务 器 获取 的 、 用 于 响应 分 配 的 地 址 ) 。 

对 于 每 个 给 定 的 对 等 体 进程 来 说 ， 在 每 种 地 址 类 型 中 ， 可 能 存在 着 多 个 备 选 地 址 。 实 际 上 ， 当 有 


O 该 RFC 发 布 于 2010 年 ,与 其 他 NAT 相关 的 RFC 一 样 ， 它 已 经 淘汰 了 ICE 的 两 个 较 早 版 本 。 
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STREN (多 和 宿主) 时 ， 存 在 着 同样 多 的 本 地 地 址 。 如 图 5. 28 所 示 ， 在 不 同 路 径 上 可 能 存在 着 几 
个 NAT 盒 - ， 且 不 同 STUN 服务 器 可 能 会 提供 不 同 的 服务 器 反射 地 址 。 最 后 ， 可 能 存在 着 多 台 TURN 服 
务 器 和 多 个 中 继 地 址 。 

ICE 操作 可 分 为 3 步 ， 如 图 5. 29 所 示 。 


3 ) 测试 连接 性 能 ， 
3) 测试 连接 性 能 ， 并 共享 结果 
并 共享 结果 


2) 收集 备 选 地 址 ， 对 ， 
地 址 进行 排列 ， 并 发 
回 列 表 ( 通 过 SDP 响 应 ) 





| otk ”图 5.29 ICE 操 作 eta o Sa 
首先 ， 启动 会 话 的 客户 端 会 收集 备 选 地 址 ， 并 根据 计算 优先 级 对 其 进行 排序 (请 参阅 包含 用 于 计 
算 此 优先 级 的 算法 的 RFC) 。 一 旦 完成 ， 这 些 结果 将 被 发 送 给 对 等 体 (通过 SDP 请 求 ) 。 对 等 体 执 行 相 
同 的 操作 ， 因 而 最 终 交 换 排 序 后 的 备 选 列表 。 

在 这 一 点 上 ， 每 个 对 等 体 都 会 检查 每 对 传输 地 址 的 连接 (每 个 对 等 体 主机 上 运行 的 STUN 均 可 以 
用 于 此 目的 ) ， 并 将 有 关 检 查 结果 通知 对 话 者 。 最 后 ， 两 个 对 等 体 都 有 一 个 或 多 个 工作 对 。 
RFC 5245 仔细 考虑 了 优化 选项 和 安全 性 问题 ， 尤 其 是 连接 性 能 测试 。 





5.3.4 运营 商 级 NAT 女友 娘 


迄今 为 止 , 已 经 默认 假设 只 在 一 层 部 署 NAT 盒 。 不 过 情况 并 非 如 此 ， 因 为 互联 网 服务 提供 商 也 面 
临 IPv4 地 址 耗 尽 的 窘境 ， 特 别 是 随 着 家 庭 网 络 的 发 展 。 

到 20 世纪 90 年 代 后 期 (根据 本 章 参 考 文献 [15] 中 描述 的 历史 ) ， 那 时 单 台 家 用 计算 机 只 是 拨号 
连接 到 提供 商 网 络 中 。 在 该 点 处 ， 为 计算 机 分 配 一 个 临时 IP 地 址 。 现 在， 这 种 情况 发 生 了 巨大 变化 。 
每 个 家 庭 都 可 能 拥有 诸多 设备 ， 且 所 有 设备 都 将 一 直 在 用 。 

这 些 设备 的 地 址 来 自 于 私有 地 址 空间 ， 且 家 庭 网 关 能 够 提供 NAT 服务 。 需 要 注意 的 是 ， 它 不 仅 涉 
及 大 型 企业 或 住家 ， 而 且 对 于 图 书馆 、 酒 店 、 酒 吧 和 咖啡 馆 来 说 ， 提 供 上 网 服务 也 是 日 常 惯例 。 

对 于 一 些 大 型 运营 商 网络 ， 为 每 个 家 庭 网 关 (或 企业 CPE 网 关 ) 分 配 一 个 公有 IP 地 址 是 不 可 能 实 
BAY. E5. 30 所 示 的 解决 方案 是 将 私有 空间 地 址 分 配给 每 个 网 关 ， 并 在 公众 互联 网 边界 部 署 男 一 台 
NATÈ (这 次 使 用 的 是 公有 四 地址 )。 

将 此 类 NAT 称 为 运营 商 级 NAT (CG NAT 或 CGN)。 正 如 现实 已 经 发 生 的 那样 ， 在 一 个 以 热爱 行业 
术语 而 闻名 的 行业 中 ， 仅 有 一 个 响亮 的 名 字 还 不 够 。 表 示 相 同 对 象 的 另 一 个 名 称 是 大 规模 NAT (LS 


O 正如 在 下 一 小 节 要 讨论 的 ，NAT 盒 可 以 进行 艇 套 。 
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NAT 或 LSN)。 如 果 这 还 不 够 ， 则 需要 增加 其 他 术语 一 一 这 就 是 转换 的 本 质 。 通 用 NAT 提供 IPv4 到 
IPv4 的 转换 ， 因 而 它 被 赋予 了 NAT 44 的 名 称 。 由 于 CG NAT 部 署 会 影响 IPv4 到 IPv4 到 IPv4 的 转换 ， 

而 它 也 被 称 为 NAT 444。 因 此 ， 拥 有 3 个 名 字 和 男 外 4 个 首 字母 缩 略 词 一 一 所 有 这 些 名 称 都 适用 于 同 
一 事物 。 这 还 没有 结束 : 因为 一 些 NAT 盒子 还 可 提供 从 IPv4 到 IPv6 的 转换 ， 我 们 还 得 到 了 NAT 46 的 
名 字 。 作 者 们 还 没有 看 到 NAT 446 或 NAT 644 ， 但 是 他 们 也 和 希望 这 些 名 字 出 现 ， 特 别 是 因为 CG NAT & 
可 以 处 理 IPv6 地 址 。 没 有 人 希望 在 整个 世界 转向 IPv6 时 部 署 NAT， 因 而 预示 着 巨变 的 潜在 NAT 666 可 
eh. 





公有 IPv4 地 址 


日 日 日 日 
® 





实际 上 ， RFC 6264 sp 全 球 ] IPv6 6 AE LCR BURRS 的 同时 ， BAT “用 于 IPv6 过 渡 的 
CGN 增 量 方法 (通过 隧道 )。 在 从 IPv4 向 IPv6 迁移 的 初始 阶段 ， 在 大 量 传统 ISP 网 络 保持 不 变 的 同时 ， 
它 可 以 为 I Pv6 主机 提供 IPv6 访问 服务 ， 为 IPv4 主机 提供 IPv4 访问 服务 。” 

这 里 ， 术 语 变 得 异常 复杂 。 一 件 本 质 上 全 新 且 紧 迫 的 事情 是 需要 一 个 新 的 私有 地 址 空间 。 正 如 公 
有 IPv4 地 址 可 能 不 会 用 于 NAT 保护 的 网 络 中 ， 因 而 家 庭 网 络 或 企业 网 络 中 的 主机 所 使 用 的 私有 地 址 可 
能 不 会 被 分 配给 下 一 级 转换 的 网 关 和 其 他 实体 。 

21 世纪 头 十 年 出 现 的 一 种 令 人 震惊 的 做 法 是 “地 址 抢占 ”。 这 仅仅 意味 着 使 用 快速 耗 尽 的 IPv4 地 
址 空间 中 尚未 注册 的 地 址 。 正 如 ICANN 的 Leo Vegoda 在 本 章 参 考 文献 [16] 中 所 指出 的 : “许多 机 构 
选择 在 其 内 部 网 络 中 使 用 未 注册 的 IPv4 地 址 ， 在 某 些 情况 下 ， 网 络 设备 或 软件 提供 商 已 选择 在 其 产品 
或 服务 中 使 用 未 注册 的 IPv4 地 址 。 在 许多 情况 下 ， 做 出 使 用 这 些 地 址 的 选择 是 因为 网 络 运营 商 不 希望 
承担 从 区 域 互 联网 注册 管理 机 构 (Regional Internet Registry, RIR) 申请 注册 地 址 块 的 管理 责任 。” 

最 终 ， 在 2012 年 ， 互 联网 社区 同意 了 这 种 最 佳 现行 做 法 ， 正 如 RFC 6598 中 所 描述 的 那样 。 这 一 做 
法 是 将 私有 地 址 空间 扩展 到 RFC 1918 中 规定 的 私有 地 址 空间 ， 来 为 共享 地 址 空间 分 配 IPv4 前 级 。 特 别 
是 针对 当前 地 址 抢占 的 做 法 ，RFC 6598 禁止 从 “ 算 改 的 全 球 唯 一 地 址 空间 ( 即 地 址 抢占 空间 ) ”对 
CG -NAT 二 级 接口 (如 网 关 接 口 ) 进行 编号 ， 并 解释 道 : 当 “ 服 务 提 供 商 将 地 址 抢占 空间 的 广告 泄露 
到 全 球 互联 网 中 ， 该 地 址 空间 的 合法 所 有 人 和 那些 希望 与 其 通信 的 用 户 可 能 会 受到 不 利 影响 "”。 甚 至 
“如 果 服 务 提供 商 没 有 泄露 地 址 抢占 空间 的 广告 ， 则 服务 提供 商 及 其 用 户 可 能 会 失去 与 该 地 址 空间 合法 
持 有 人 的 连接 。” 

但 是 服务 提供 商 接 下 来 会 做 什么 呢 ? 下 面 两 件 事 之 一 : 

1) 小 心 谨 慎 地 重用 私有 地 址 空间 ， 使 同一 地 址 永远 不 会 分 配给 两 个 实体 : 一 个 在 网 关内 部 ， 另 一 
个 在 网 关外 部 ; 

2) 在 用 户 提 供 其 CPE 并 对 其 内 部 网 络 进行 编号 的 非 托 管 服务 中 使 用 一 些 新 的 地 址 空间 (顺便 说 
一 下 ， 该 地 址 空间 是 第 一 种 方案 不 可 执行 的 唯一 情形 ) 。 
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新 的 地 址 空间 被 特别 指定 为 “达成 促进 运营 商 级 NAT (CGN) 部 署 的 目的 ”。 随 后 ， 美 国 互联 网 号 
IEE EHL (American Registry of Internet Numbers, ARIN) 采用 了 如 下 策略 : “需要 预 留 一 个 二 级 
连续 的 /10 IPv4 块 来 促进 IPv4 地 址 扩展 。 不 会 将 该 块 分 配 或 指派 给 任何 单一 机 构 ， 但 可 由 服务 提供 商 
共享 来 实现 IPv4 地 址 扩展 部 署 内 部 使 用 ， 直 至 连通 网 络 完全 支持 IPv6。 这 种 需求 实例 包括 家 庭 网 关 和 
NAT444 转换 器 之 间 的 IPv4 地 址 。” 

因此 ，IPv4 地 址 空间 的 耗 尽 再 次 被 推迟 …… 而 且 这 还 是 在 不 受 约 束 的 情况 下 发 生 的 。RFC 6598 列 
出 了 茶 些 服务 变 得 无 法 提供 CG NAT 的 几 个 实例 。 

这 些 服务 中 的 一 些 似乎 是 一 类 不 需要 转换 即 可 实现 的 服务 一 一 与 游戏 机 类 似 。 当 两 个 使 用 相同 
IPv4 地 址 的 用 户 和 尝试 相 互 连 接 时 ， 其 他 包 插 点 对 点 对 点 应 用 和 视频 流 。 该 类 型 中 更 重要 的 服务 是 需要 
确定 CG NAT 服务 絮 位 置 的 地 理 位 置 服务 ， 以 及 需要 全 局 可 达 地 址 的 “6 到 4”( 即 IPv6 到 IPv4) 转换 。 

现在 ,很 容易 会 继续 兑现 早期 承诺 ， 以 漆 清 DMZ 高 深 葛 测 的 用 例 。 在 该 用 例 中 ,企业 配置 了 公众 
Web 服务 项。 在 图 5. 17b 所 示 的 两 个 防火 墙 中 ，NAT 盒 是 在 将 信任 区 与 DMZ 分 开 的 防火 墙 中 实现 的 。 
公众 服务 器 可 能 无 法 在 NAT 后 运行 ， 因 而 DMZ 是 企业 中 公众 服务 器 的 唯一 部 署 位 置 ( 仍 由 男 一 个 防火 
墙 负责 保护 ) 。 类 似 地 ， 在 图 5. 17a 所 示 的 情形 中 ， 需 要 对 NAT 盒 进 行 合 理 配置 ， 以 确保 它 不 会 干扰 
DMZ 接口 和 公众 接 人 接口 之 间 的 流量 。 

现在 ， ti at te ahaa a ional saa 
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负载 均衡 的 概念 非常 直观 。 这 就 是 人 们 如 何 ( 从 奎 干 种 相同 的 资源 中 ) 选择 最 合适 的 资源 来 执行 
给 定 功能 。 例 如 ， 菲 律 宾 前 第 一 夫人 伊 梅 尔 达 ' 马 科 斯 (Imelda Marcos) 因 收 藏 了 大 量 的 珍贵 鞋 款 
( 约 3000 双 ) 而 闻名 世界 ， 其 中 的 一 部 分 被 陈列 在 菲律宾 国家 博物 馆 。 我 们 推测 ， 她 会 综合 考虑 时 间 、 
天 气 和 她 打算 穿 衣 的 整体 风格 等 因素 来 选择 一 双 鞋 子 ”。 

类 似 的 例子 还 有 电话 。 我 们 选择 电话 ， 是 因为 它 仍然 在 广泛 使 用 ， 也 是 因为 它 非常 透彻 地 说 明了 
IP 网 络 中 负载 均衡 几乎 所 有 的 应 用 。 这 个 例子 就 是 所 谓 的 800 (也 称 为 Freephone) 服务 ， 在 本 章 参考 
文献 [17] 中 有 详细 描述 ， 如 图 5.31 所 示 。 














E EA 


曲 需要 注意 的 是 ， 在 这 个 例子 中 ,“ 均 衡 ” 一 词 应 用 于 马 科 斯 夫人 通过 选择 某 双 鞋 来 实现 鞋子 负载 均衡 的 行为 ， 这 不 应 该 
与 她 在 穿着 鞋子 时 保持 其 平衡 相 混 消 。 
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被 叫 方 ( 在 这 种 情况 下 ， 被 叫 方 是 公司 ) 负责 为 服务 付费 。 在 美国 ， 通 常 为 这 一 号 码 指定 特殊 的 前 级 
(800 前 级 是 AT&T 在 20 世纪 80 年 代 初 推出 服务 时 出 现 的 第 一 个 前 级 ) ， 用 于 表示 它 应 该 与 “标准 ” 数 
字 区 别 对 符 。 

当 拨打 这 种 号 码 时 ， 电 话 交换 机 立即 知道 它 无 法 路 由 到 该 号 码 ， 且 需要 特殊 指令 来 对 号 码 进行 处 
理 ” 。 因 此 ， 交 换 机 借助 指令 指向 一 种 称 为 服务 控制 点 (Service Control Point, SCP) 的 计算 机 。(〈 交 换 
机 和 网 络 控制 点 之 间 的 所 有 信 令 数据 流 均 采 用 ITU -T 标 准 化 的 7 号 信 令 系统 协议 在 单独 数据 通信 网 络 
上 运行 。) 

反 过 来 ， 服 务 控制 点 (SCP) 调用 了 一 种 自 定 义 编写 的 业务 逻辑 程序 ， 它 使 转换 成 为 可 能 。 在 实例 
中 ,程序 会 查看 呼叫 时 间 来 决定 应 该 到 达 哪 个 呼叫 中 心 。 由 于 时 间 恰 好 是 下 午 5:30， 程 序 和 表明 ， 新 洋 
西 州 的 呼叫 中 心 将 在 当天 关闭 ， 因 而 最 合适 的 呼叫 中 心 是 加 利 福 尼 亚 州 (那里 当地 时 间 是 下 午 2:30) 。 
因此 ， 需 要 指定 到 加 利 福 尼 亚 内 部 呼叫 中 心 交换 机 的 路 由 。 对 于 3 小 时 后 启动 的 呼叫 ， 接 下 来 8 小 时 将 
指定 班加罗尔 的 呼叫 中 心 ， 之 后 是 新 泽 西 州 的 呼叫 中 心 。 太 阳 在 公司 永远 不 会 落 ! 需要 注意 的 是 ， 根 
据 业 务 逻 辑 程序 ， 转 换 是 动态 处 理 的 。 另 外 ， 需 要 注意 的 是 ， 这 一 实例 绝 不 是 一 种 采用 过 时 技术 的 实 
例 一 一 谷歌 一 直 在 提供 这 种 服务 的 入 门 级 变种 ， 作 为 Google Voice 的 一 部 分 。 

在 这 一 实例 中 ， 基 于 呼叫 中 心 的 可 用 性 ， 可 以 将 每 次 呼叫 分 配给 某 个 呼叫 中 心 。 但是， 通过 智能 
网 (IN)， 还 可 以 基于 负载 分 配 ， 从 多 个 呼叫 中 心中 选择 一 个 呼叫 中 心 : 呼叫 将 被 路 由 到 一 个 业务 处 理 
量 比 其 他 呼叫 中 心 少 的 呼叫 中 心 。 为 此 ， 呼 叫 可 以 根据 分 配 权重 在 呼叫 中 心 之 间 进 行 统一 分 配 。 在 极 
端 情况 下 ， 服 务 控制 点 (SCP) 可 通过 应 用 呼叫 间 际 来 保护 电话 网 络 免 于 过 载 ， 而 呼叫 间 际 是 丢弃 已 定 
义 呼叫 的 百分比 (在 这 种 情况 下 ， 呼 叫 者 将 听 到 一 种 短促 “繁忙 ”信号 )。 

上 述 负载 均衡 功能 在 多 个 环境 中 几乎 是 一 致 的 。 本 节 的 剩余 部 分 描述 了 现代 服务 器 农场 中 的 负载 
均衡 ， 提 供 了 实现 和 部 署 负载 均衡 的 实例 ， 并 讨论 了 如 何 将 DNS 应 用 于 负载 均衡 。 








5.4.1 服务 器 农场 中 的 负载 均衡 。 «ee 

如 前 所 述 ， 上 述 特征 集 与 现代 服务 器 农场 中 使 用 的 功能 几乎 相同 ， 如 图 5. 32 所 示 。 服 务 器 负责 执 
行 任务 以 响应 客户 端的 进程 (可 能 在 专用 主机 上 运行 的 每 个 进程 ) 。 万 维 网 服务 顺 (返回 到 网 页 ) 可 
能 是 第 一 个 广泛 使 用 的 实例 ， 其 次 是 SIP 服务 器 (针对 IP ERE), DNS 服务 需 等 。 负 载 均衡 器 获取 请 
求 ， 然 后 将 其 转发 到 所 选 的 服务 硕 。 





图 5.32 服务 名 农场 : 
后 端 服务 器 不 一 定 必须 位 于 同一 位 置 。 事 实 上， 它们 可 能 在 地 理 上 分 散 (当然 ， 在 这 种 的 情况 下 ， 
不 会 将 其 集合 称 为 “农场 " ) 。 实 际 上 ， 备 份 服务 器 甚至 不 一 定 是 “服务 器 "” 。 负 载 均 衡器 可 以 在 网 络 


O 正如 前 面 所 提 到 的 ， 这 与 SDN 概念 非常 相似 。 事 实 上 ， 将 智能 网 (Intelligent Network, IN) 支持 的 一 种 服务 称 为 软件 定 
义 网 络 (Software Defined Network，SDN ) 。 但 是 其 转换 部 分 也 与 DNS 的 功能 非常 相似 : 至 少 可 以 将 不 可 路 由 的 号 码 转换 
为 可 路 由 的 号 码 ， 且 可 动态 转换 号 码 。 








边 绿 的 路 由 器 中 实现 。 在 这 种 情况 下 ， 负 载 均衡 器 可 以 通过 备用 链 路 来 分 配 流量 。 

这 种 配置 的 几 个 主要 优势 如 下 : 

1) 加 速 处 理 〈 使 用 并 行 技术 一 所 有 服务 器 都 能 执行 每 项 指定 的 任务 ) ; 

2) 提高 可 靠 性 〈 如 果 一 台 或 多 台 服 务 器 宕 机 ， 则 服务 器 性 能 恶化 ， 且 在 服务 器 恢复 时 性 能 提升 ) ; 

3) 文 持 可 扩展 性 (使 用 高 效 并 行 的 任务 、 添 加 新 服务 器 来 线性 提升 性 能 )。 

最 后 两 项 是 云 计算 的 重要 特征 ， 这 使 得 云 计 算 中 负载 均衡 器 的 用 途 显而易见 。 

与 NAT 提供 的 安全 性 有 些 相 似 ， 安 全 性 拥有 一 大 优点 ， 因 为 后 端 操 作 的 内 部 结构 对 外 隐藏 。 当 负 
载 均衡 疮 在 防火 墙 内 实现 (这 是 常见 情况 ) 时 ， 它 实际 上 可 以 终止 安全 会 话 ， 从 而 保护 后 端 服 务 器 免 
受 维护 安全 状态 的 影响 。 更 为 重要 的 是 ， 负 载 均衡 器 用 于 缓解 各 种 拒绝 服务 攻击 ， 特 别 是 SYN 攻击 
(通过 实现 SYN Cookie 和 延迟 绑 定 ) 。 

正如 已 经 看 到 的 ， 负 和 载 均衡 器 的 性 质 是 双重 的 : 它 既 是 中 间 人 又 是 调度 器 。 调 度 器 是 负载 均衡 器 
FE al il T ETET 

这 里 ， 第 一 个 相关 问题 是 选择 
Sy E ER Coenen: aimee 
一 个 因素 ， 这 对 某 些 应 用 来 说 可 能 是 至 关 重 要 的 。 因 此 ， 调 度 算法 也 可 以 基于 反馈 机 制 : 负载 均衡 器 
-o 服务 硕 的 负载 和 运行 状况 ， 并 相应 地 调整 任务 分 配 。 

今 为 止 ， 已 经 默认 假设 适用 于 负载 均衡 应 用 的 任务 类 型 是 一 次 性 请 求 / 响 应 事务 。 然 而 ， 负 载 均 
竹林 以 与 面向 会 话 的 应 莉 协 癌 工作 。 se BS RE ee Die artes EP 以 便 新 分 配 的 后 端 
服务 需 能 够 知道 到 达 请 求 的 准确 情境 。 

一 些 应 用 协议 (特别 是 HTTP) 在 客户 端 存储 会 话 的 整个 状态 。 有 趣 的 是 ， 这 种 机 制 开 发 的 初衷 显 
然 不 是 解决 负载 均衡 问题 的 ， 而 是 解决 可 扩展 性 问题 的 。 当 客户 端 数量 急剧 增加 时 ， 将 每 次 会 话 服务 
需 端 状态 存储 到 服务 器 上 是 不 现实 的 甚至 是 不 可 能 的 。 相 反 ， 该 协议 会 强迫 客户 端 存储 该 状态 ， 然 后 
在 下 一 个 消息 中 将 其 呈现 给 服务 器 =， 如 图 $. 33 所 示 。 








请 求 x 
pee 
啊 应 ，< 状 态 X> 
请 求 y ’ < 状态 x> 


一 一 





将 状态 信息 的 主体 称 为 Cookie。 这 是 一 WERE Web fi Sai, 考虑 网 上 购物 一 从 一 
个 网 页 移 到 男 一 个 网 页 ， 把 东西 放 在 你 的 购物 车 里 和 等。 服务器 不 保存 浏览 的 历史 记录 。 相 反 ， 它 会 问 
客户 端 返回 一 个 Cookie， 后 者 预计 会 在 下 一 条 请 求 中 进行 显示 。 

一 旦 服务 需 收 到 Cookie， 则 它 恢复 状态 。 顺 便 说 一 下 ， 这 就 解释 了 为 什么 应 当 对 Cookie 进行 密码 
保护 ( 以免 恶意 客户 端 通过 修改 Cookie 来 欺骗 服务 器 ， 在 实际 没 付款 的 情况 下 来 标识 已 经 完成 付款 ) 
和 加 密 (为 了 保护 客户 隐私 和 网 络 企业 的 商业 利益 ) 。 

然而 ， 存 在 着 一 些 不 采用 Cookie 机 制 的 应 用 。 在 这 种 情况 下 ， 为 了 支持 负载 均衡 ， 将 会 话 状 态 存 
储 在 中 央 数 据 库 中 。 当 然 ， 也 会 因 单 点 故障 而 出 现 了 严重 的 可 靠 性 问题 。 

对 负载 均衡 器 的 研究 正在 进行 ， 特 别 是 它们 在 确保 网 络 自 愈 性 能 方面 的 应 用 。 存 在 着 一 种 有 趣 的 
方法 基于 与 化 学 的 类 比 〈 本 章 参 考 文献 [18] 对 该 方法 进行 了 说 明 )。 本 章 参 考 文献 [19] 是 一 本 与 
服务 帮 人 负载 均衡 有 关 的 综合 性 专著 。 


O 需要 注意 的 是 ， 这 与 CPU 操作 惊人 地 相似 。 每 个 进程 的 状态 都 保存 在 该 进程 的 内 存 中 (而 不 是 保存 在 CPU F), AmE 
每 次 需要 执行 该 进程 时 ，CPU 都 会 获得 该 进程 的 状态 。 
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HEN PRE SUE AB , 负载 均衡 并 不 神秘 。 


5.4.2 实例: 负载 均衡 Web 服务 *** € 





在 实践 中 ， 使 用 开源 软件 在 云 中 创建 和 部 署 负载 均衡 非常 简单 。 在 下 面 的 实例 中 ， 我 们 使 用 万 维 
网 服务 (更 具体 地 说 ， 使 用 Nginx 服务 器 软件 ) 。 建 议 读 者 将 该 实例 作为 一 项 实际 任务 ， 使 用 诸如 亚 马 
逊 的 EC2 (Elastic Compute Cloud ， 弹 性 计算 云 ) 服务 来 实现 。 

我 们 的 任务 是 创建 一 个 由 4 台 相 同 服务 器 维护 的 网 站 ， 且 负载 均衡 是 由 第 5$ 台 服 务 硕 负责 实现 的 ， 
如 图 5.34 所 示 。 为 了 达到 这 一 目标 ， 可 以 创建 5 台 虚 拟 机 ， 这 可 以 通过 将 运行 Linux 操作 系统 作为 亚 
马 逊 EC2 实例 来 实现 ， 并 在 每 台 虚 拟 机 上 部 署 Nginx 服务 器 。 一 台 虚 拟 机 将 使 用 Nginx IRA aK FE 4 75 


4 台 虚 拟 机 的 负载 均衡 硕 。 


在 index.html 文 件 : 


<htmi xmins="http:/www.w3.0rg/1999/xhtml" 


xmi:lang="en"> 


<body> 


人 全 -~ 


</body> 


</html> 


HTTP 请 求 /响应 
< 一 一 一 一 > 


HTTP 客 户 端 
浏览 器 


对 于 Få 4 台 服 务 器 中 的 每 一 台 ， mg HR Ja 要 借助 助 


用 于 确定 服务 器 标识 的 文本 对 bide html 文件 
(位 于 directory/usr/share/nginx/html 中 ) 进行 
更 新 , ,如 图 5.34 所 示 (需要 使 用 被 Serverl 、 
Server2 、Server3 或 Server4 4 {0 AY Z FF E 

SID) 。 

剩 下 唯一 要 做 的 事情 (也 是 最 有 趣 的 事 
fa) 是 配置 负载 均衡 器 。 事 实证 明 ， 这 与 配 
置 服务 需 一 样 简单 。 负 载 均 衡器 的 配置 文件 位 
于 etc/nginx/nginx. conf 中 。 图 5. 35 包含 了 示 
例 代码 。 

在 实例 中 ， 每 个 服务 器 的 权重 值 为 1， 这 
意味 着 在 运行 时 ， 流 量 将 在 4 台 服 务 器 之 间 进 
行 平均 分 配 ， 但 权重 值 可 以 任意 进行 分 配 ， 建 
以 谈 者 通过 设置 相应 权重 ， 尝 试 为 服务 器 分 配 
不 同比 例 的 流量 。 要 使 新 配置 生效 ， 需 要 执行 
shell 命令 : /etc/init. d/nginx reload, 





[ l SID=Server4 


一 | 


虚拟 实例 





events { 


worker_connections 768; 
} 
http { 
upstream myapp { 
#ip_hash; 
server [SERVERI_PUBLIC_DNS_NAME] weight=1; 
server [SERVER2_PUBLIC_DNS_NAME] weight=1; 
server [SERVER3_PUBLIC_DNS_NAME] weight=1; 
server [SERVER4_PUBLIC_DNS_NAME] weight=1; 
} 
server 
i 
listen 80; 
server_name myapp.com; 
location / 


{ 


proxy_pass http://myapp; 


O 这 一 实例 来 自 于 在 史 带 文生 理工 学 院 执教 的 CS -524 课程 〈 云 计算 简介 ) 中 的 实验 任务 。 作 者 们 将 实例 的 设计 归功 于 一 





位 才华 横 洲 的 开发 人 员 
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于 波 (Bo Yu), ， 他 是 2014 年 春季 学 期 的 助教 。 





5.4.3 使 用 DNS 进行 负载 均衡 *«*«x 


即使 不 使 用 专用 的 前 端 服务 右 ， 也 可 以 实现 负载 均衡 。 在 这 种 情况 下 ， 负 载 均 衡 是 由 DNS 转换 功 
能 实体 执行 的 ， 它 将 向 服务 器 农场 返回 特定 服务 器 的 IP 地 址 。DNS 支持 的 负载 均衡 涉及 两 个 问题 : 
指定 服务 器 的 地 址 ; 人 @) 指 定 负载 均衡 算法 。 

先 讨论 第 一 个 问题 。 至 少 可 以 采用 两 种 方式 来 指定 服务 器 的 地 址 ， 如 图 5. 36 所 示 。 





IN service>... serv.example.com IN <service> .… serv1.example.com. 
serv IN A x1.y1.21.t IN <service> ... serv2.example.com. 
IN A x2.y2.Z2.t2 IN <service> ... serv3.example.com. 
IN A x3.V3.Z3.t3 IN <service> ... serv4.example.com. 
IN A x4.ya.z4.ta serv] INA x1.y1.21.t1 
serv2 INA X2.Y2.Z2.t2 
serv3 INA X3-Y3-Z3.t3 
serv3 IN A X4.¥4.Z4.t4 


Xi- Y1- Zi-ti 
X3. Y2- Z2.b2 
i Jf X3- Ys: Z313 


WES] X4-¥4-Zy-ty 


虚拟 服务 器 实例 





在 这 两 种 情形 中 ， 处 理 一 种 抽象 服务 < service >, ERT LAE Pig DNS ARF at 3c FF AY FE AY 
服务 (WWW, FTP, Email, SIP), 5. 36a 显示 了 将 serv. example. com 转换 为 包含 4 个 PP 地址 的 列 
表 的 啊 应 记录 。 图 5. 36b 所 示 的 备 选 方案 是 将 serv. example. com 转换 为 4 个 区 域 的 授权 服务 硕 列 表 ， 以 
便 每 个 区 域 由 合适 服务 器 进行 管理 以 接收 负载 ”。 后 一 种 方法 减缓 了 事务 发 展 速度 ， 但 是 在 处 理 过 载 方 
面具 有 优势 : WRIA, MERAH, DNS 查询 ， 因 而 将 显示 不 存在 。 

在 用 于 选择 多 个 记录 返回 顺序 的 算法 方面 ， 该 算法 可 以 通过 使 用 rrset - order 规范 〈 在 绑 定 实现 方 
R) 来 定义 。 有 具体 来 说 ， 排 序 属性 可 以 取 固 定 值 、 随 机 值 或 循环 值 (默认 设置 ) 。 当 排序 属性 取 固 定 值 
时 ， 记 录 按 照 其 定义 的 顺序 准确 地 返回 ; 当 排 序 属性 取 随 机 值 时 ， 顺 序 是 随机 的 ; 当 排 序 属 性 取 循 环 
值 时 ， 顺 序 被 循环 换 位 ， 进 而 导致 轮 询 调度 。 

DNS 支持 的 负载 均衡 存在 的 一 个 问题 是 缓存 一 一 在 TIL 参数 指定 的 持续 时 间 内 ， 缓 存 返 回 的 啊 应 
相同 。 处 理 此 问题 的 极端 方法 是 使 TTL 值 等 于 0， 但 会 增加 DNS 服务 和希 上 的 负载 。 绥 人 存 问题 可 能 是 需 
要 处 理 的 最 严重 的 问题 。 许 多 问题 也 是 由 服务 硕 的 可 用 性 (或 者 可 用 性 相当 差 ) 引起 的 : WRI A 
不 可 用 ， 则 DNS 服务 器 可 能 仍然 返回 其 地 址 。( 如 前 所 述 ， 将 服务 器 与 其 区 域 相 关联 ， 可 以 完全 解决 这 
一 问题 。) 在 不 太极 端的 情况 下 ， 虽 然 DNS 不 知道 服务 器 各 自 的 负载 ， 但 它 仍 只 能 提供 服务 分 发 功能 而 
不 是 负载 分 配 功能 。 

为 了 克服 这 一 困难 ， 需 要 增强 DNS 服务 器 的 一 些 功能 ， 使 其 与 每 台 服 务 器 进行 交互 ， 以 收集 与 其 
各 自负 载 相 关 的 信息 ， 然 后 基于 这 些 信 息 做 出 调度 决 案 ”。 此 类 服务 器 的 早期 (大约 20 世纪 90 年 代 后 
期 ) 实现 方案 是 由 斯 坦 福 大 学 的 Rob Riepel 开发 的 Lbnamed DNS 服务 颖 。 

随 着 时 间 的 推移 ，DNS 负载 均衡 功能 已 经 癌 智 能 网 络 处 理 ( 见 图 5.30) 方向 演进 一 一 一 由 专用 服 
务 逻 辑 引 导 。 当 接收 到 查询 消息 时 ， 后 者 在 DNS 服务 器 上 被 调用 ， 且 能 够 处 理 许多 要 素 , 包括 发 出 请 


加 ”为 了 实现 这 一 目标 ， 相 关 主 机 也 必须 运行 DNS 服务 器 软件 〈 可 能 是 一 个 非常 基本 、 非 常 简单 的 版 本 ) 。 
O 这 种 交互 没有 标准 ， 主 要 取决 于 实现 方案 。 
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求 的 客户 端 地 理 位 置 ( 以 便 找到 最 靠近 客户 端的 服务 器 ) 。( 在 和 与 会 Acamai 代表 的 密谈 中 ， 我 们 被 
告知 “DNS 服务 器 拥有 智能 网 涉及 的 任何 东西 1") 这 再 次 证 明 : 相对 于 技术 潮流 来 说 ， 概 念 是 一 成 不 
变 的 一 一 对 PSTN 有 益 的 东西 对 互联 网 仍然 有 益 。 | | 

市 场 上 存在 着 相关 产品 。 关 于 能 够 证 明 上 述 结 论 的 实例 8， 我 们 推荐 读者 查阅 白皮书 加 。 
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O 在 讨论 内 容 传 送 服务 时 ， 将 重新 讨论 这 一 问题 。 
O 在 本 书 中 ， 并 没有 试图 进行 市 场 或 产品 调查 。 
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现代 数据 中 心 的 云 存储 与 结 榨 


数据 中 心 是 云 计 算 的 主要 应 用 场景 。 

数据 中 心 是 服务 器 、 存 储 器 和 通信 设备 以 及 必要 的 实用 工具 (如 电源 、 冷 却 和 通风 设备 ) 驻 留 的 
位 置 。 以 此 种 方式 来 配置 设备 是 顺理成章 的 ， 因 为 环境 需求 和 物理 安全 需求 通常 是 相同 的 。 这 种 配置 
还 可 以 人 简化 操作 和 维护 。 举 个 恰当 的 例子 : 在 物理 上 维护 1 个 房间 内 的 10 台 计 算 机 ， 比 维护 分 布 在 5 
个 房间 内 的 10 台 计 算 机 要 容易 得 多 。 

大 多 数 数据 中 心 消耗 了 大 量 不 必要 的 能 源 ” ， 浪 费 了 从 电网 输送 来 的 90% 或 更 多 的 电力 … 。 导 致 效 
率 低 下 的 原因 之 一 是 服务 器 未 得 到 充分 利用 : 典型 的 利用 率 变化 范围 为 6% ~12%”。 数 据 中 心 的 虚拟 
化 可 提供 一 种 提高 服务 器 利用 率 并 降低 能 耗 的 方法 。 同 时 ， 它 还 通过 硬件 、 物 理 外 壳 与 布线 、 占 地 面 
积 和 其 他 物理 属性 来 改变 传统 数据 中 心 的 划分 方法 。 : 

采用 此 种 划分 方法 得 到 的 虚拟 数据 中 心 不 再 具有 明确 的 物理 边界 。 物 理 数据 中 心 可 以 托管 多 个 虚拟 数 
据 中 心 ， 这 一 点 是 不 言 而 喻 的 。 如 果 虚 拟 数据 中 心 为 多 个 机 构 提 供 服 务 ， 则 物理 数据 中 心 就 是 多 租户 的 。 

但 是 ， 也 可 能 存在 跨 多 个 物理 数据 中 心 的 虚拟 数据 中 心 。 例 如 ， 某 个 机 构 可 能 会 在 维护 私有 数据 
中 心 的 同时 ， 将 其 部 分 IT (Information Technology， 信 息 技 术 ) 基础 设施 进行 外 包 。 在 这 种 情况 下 ， 两 
个 数据 中 心 在 地 理 上 和 管理 上 是 分 开 的 , 但 可 以 通过 适当 的 虚拟 专用 网 (或 隧道 ) 机 制 将 其 拼接 在 一 
起 ， 以 确保 起 到 隔离 作用 。 

当然 ， 虚 拟 资 源 的 按 需 分 配 和 已 分 配 资源 的 动态 重 定位 是 支撑 数据 中 心虚 拟 化 的 两 大 基本 特征 。 
在 何 处 分 配 和 重 定位 资源 可 能 会 基于 诸如 性 能 需求 、 负 载 均 衡 、 改 善 恢复 能 力 、 灾 难 恢 复 和 法 规 遵循 
等 标准 。 从 物理 资源 到 虚拟 资源 的 映射 是 一 种 与 实现 相关 的 问题 。 总 之 ， 除 虚拟 化 技术 外 ， 还 需要 一 
种 用 于 管理 所 有 跨 基础 架构 资源 并 为 应 用 提供 统一 接口 的 云 管理 系统 ”。 在 第 7 章 中 ， 将 对 云 管理 系 
统 进行 讨论 。 

本 草 将 对 数据 中 心虚 拟 化 的 推动 因素 进行 讨论 。 首 先 简 要 回顾 传统 数据 中 心 ， 并 介绍 其 高 级 功能 
架构 。 该 架构 的 核心 组 件 是 计算 ” (sic) 、 存 储 和 网 络 。 传 统 数据 中 心 的 特点 之 一 是 使 用 专业 化 的 专用 
网 络 来 存储 流量 以 提高 性 能 。 这 在 成 本 上 是 不 划算 的 。 幸 运 的 是 ， 技 术 进 步 可 以 在 不 导致 性 能 恶化 的 
情况 下 ， 针 对 所 有 流量 使 用 单一 网 络 。 这 样 ， 就 出 现 了 将 在 本 章 进行 描述 的 下 一 代数 据 中 心 。 

然后 ， 重 点 关注 存储 相关 事宜 ， 因 为 计算 和 网 络 都 有 自己 独立 的 章节 。 我 们 利用 全 球 网 络 存 储 工 
业 协 会 (Storage Networking Industry Association, SNIA) 的 共享 存储 模型 来 介绍 存储 分 类 。 研 究 3 种 
类 型 的 存储 ， 它 们 是 根据 与 主机 的 连接 方式 进行 区 分 的 : 直 连 式 存 储 (Direct - Attached Storage, 
DAS) 、 网 络 连接 存储 (Network - Attached Storage, NAS) 和 存储 区 域 网 络 (Storage Area Network, 
SAN ) 。 将 处 理 右 和 存储 设备 互 连 的 技术 既 包 括 电缆 最 大 长 度 约 为 10m 的 小 型 计算 机 系统 接口 (Small 
Computer System Interface，SCSI) ， 又 包括 最 大 线 顷 长 度 约 为 10km 的 光纤 信道 (Fibre Channel, FC) 或 
以 太 网 。 长 期 以 来 ， 小 型 计算 机 系统 接口 (SCS) 是 用 于 直 连 式 存储 的 主流 技术 。 然 而 ， 小 型 计算 机 
系统 接口 (SCSI) 的 并 行 总 线 设 计 限 制 了 速度 和 电缆 长 度 ， 它 已 经 被 串 行 SCSI (Serial Attached SCSI, 
SAS) 技术 所 取代 。 串 行 SCSI 使 得 互 连 速 度 更 快 ， 通 信和 距离 更 远 。 即 使 并 非 不 可 能 ， 直 连 式 存储 要 实 
现 共享 也 是 非常 困难 的 。 





O 谷歌 的 数据 中 心 属于 例外 情况 ， 其 耗 能 比 典 型 数据 中 心 降低 了 50 和 以上。 这 可 以 通过 若干 个 步骤 来 实现 : 将 服务 器 表面 
温度 提高 到 80 F， 使 用 外 部 空气 进行 冷却 ， 并 构建 效率 高 达 93% 的 定制 服务 器 。 

O ” 另 一 个 原因 是 服务 器 始终 处 于 运行 状态 的 实际 做 法 。 

O HA (i) 是 一 个 业界 用 于 指 代 计算 资源 而 不 是 存储 资源 的 新 〈 且 相当 普通 和 不 精确 ) 的 术语 。 
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网 络 连接 存储 解除 了 这 一 限制 条 件 。 特 别 地 ， 它 支持 在 IP (Internet Protocol， 互 联网 协议 ) 网 络 上 
进行 文件 共享 。 但 是 ， 对 于 需要 低层 次 存储 访问 的 数据 库 应 用 来 说 ， 文 件 共享 并 不 起 作用 。 此 外 ， 存 
储 吞 吐 量 受 底层 网 络 介质 的 限制 。 

这 是 存储 区 域 网 络 (SAN) 的 切 信 点。 可 以 对 存储 区 域 网 络 进行 调整 ， 以 适用 于 高 速 互 连 存储 系 
统 ， 同 时 它 还 支持 资源 池 和 对 资源 池 的 块 级 访问 。 它 主要 基于 数据 中 心 的 主流 技术 一 一 光纤 信道 
(FC), ESAT BT VO (Input/Output, 输入 /输出 ) 总 线 和 交换 网 络 的 优点 。 

显而易见 ， 部 署 和 管理 一 个 用 于 存储 的 独立 定制 网 络 是 非常 不 经 济 的 ， 因 为 这 需要 专门 硬件 以 及 负责 
操作 硬件 的 额外 工作 人 员 。 因 此 ， 人 们 开始 对 寻找 一 种 采用 单一 融合 网 络 来 承载 所 有 类 型 流量 ( 同时 能 够 
高 效 承载 与 存储 有 关 的 流量 ) 的 方法 产生 了 浓厚 的 兴趣 。 综 述 该 领域 的 发 展现 状 ， 并 重点 关注 数据 中 心 的 
两 大 主要 方法 : 以 太 网 光纤 信道 (FC over Ethernet, FCoE) 和 互联 网 小 型 计算 机 系统 接口 (Internet Small 
Computer System Interface, iSCSI), BRKE, AMER E iSCSI 的 同时 ， 用 于 对 象 存储 的 标准 接口 也 开始 
出 现在 文献 中 ， 它 的 出 现 有 一 个 很 好 的 理由 。 下 面 将 要 讨论 的 对 象 存储 ， 被 视 为 用 于 实现 SCS 支持 的 可 
共享 存储 承诺 中 缺失 的 一 环 : 它 能 够 实现 具有 精细 访问 控制 功能 的 主机 直接 访问 。 

本 章 讨 论 的 下 一 个 主题 是 存储 虚拟 化 ， 这 是 一 种 使 应 用 免 受 物理 存储 的 底层 细节 影响 的 机 制 。 对 于 云 
计算 来 说 ， 网 络 存储 虚拟 化 非常 重要 ， 因 为 它 支 持 高 效 的 资源 池 化 ， 并 简化 诸如 快照 和 迁移 等 管理 任务 。 

最 后 ， 讨 论 固 态 存 储 。 关 于 存储 介质 ， 存 在 着 具有 不 同性 能 和 成 本 的 技术 。 一 种 极端 情况 是 随机 
存 取 存储 器 (Random Access Memory, RAM); 另 一 种 极端 情况 是 磁带 。 中 间 的 情况 是 相对 较 新 的 固态 
技术 一 一 闪存。 与 RAM 类 似 ， 闪 存 是 基于 半导体 的 ， 因 而 不 涉及 移动 部 件 。 闪 存 比 硬盘 运行 速度 快 ， 
但 比 RAM 成 本 低 。 这 些 优点 使 闪存 技术 成 为 存储 层级 的 可 行 成 员 ， 成 为 硬盘 的 有 力 挑战 者 。 此 外 ， 鉴 
于 闪存 在 随机 读 取 操 作 中 的 卓越 性 能 ， 它 已 成 为 云 计算 的 关键 。 对 云 计算 高 性 能 的 追求 也 推动 了 诸如 
RAMCloud ”和 Memcached“ 等 的 发 展 ， 后 面 将 会 对 其 进行 介绍 。 这 两 项 研发 成 果 都 采用 了 随机 存 取 存 
fet (RAM), ， 但 侧重 点 各 不 相同 。 实 际 上 ，RAMCloud 旨 在 构建 一 种 拥有 无 限 容量 的 远程 缓存 ， 而 
Memcached 文 持 一 种 简单 的 键 值 存储 ， 用 于 在 商用 计算 机 池 中 的 各 个 存储 器 单元 内 缓存 任意 数据 。 

限于 本 书 篇 幅 ， 我 们 无 法 涉及 与 数据 中 心 相关 的 一 些 重要 问题 ， 如 配置 、 电 源 和 热管 理 等 。 推 荐 
大 家 阅读 本 章 参考 文献 [6] 来 补充 了 解 这 些 知识 。 





图 6. 1 描述 了 传统 数据 中 心 的 高 级 功能 架构 。 硬 件 
模块 可 以 按照 标准 尺寸 组 织 成 一 排 排 支 架 ， 以 方便 部 
Ho ASA SRA, AAR, CERA 
虚拟 数据 中 心 的 组 成 部 分 。 


访问 和 聚合 网 络 






61.1 计算 xx 
计算 组 件 是 指 可 以 通过 网 络 进行 访问 的 高 性 能 计算 
机 ， 称 其 为 服务 器 。 它 们 是 可 靠 的 ， 且 能 够 处 理 大量 工 
作 负 载 。 服 务 器 在 成 本 和 功能 方面 有 很 大 差别 。 与 台式 
计算 机 相 比 ， 它 们 在 计算 和 输入 /输出 能 力 方面 的 可 2A K C0] Nasg 
服务 器 可 能 还 具有 与 桌面 计算 机 不 同 的 外 形 。 它 们 
以 机 架 式 或 刀片 式 服务 器 的 形式 呈现 。 可 以 对 这 些 服务 
器 的 外 形 进行 优化 ， 以 减 小 其 物理 尺寸 ， 降 低 其 互 连 复 
杂 性 (布线 难度 ) 。 随 着 服务 器 数量 的 不 断 增加 ， 且 这 
些 服务 器 需要 配置 在 数据 中 心 有 限 的 空间 内 ， 因 而 这 种 
优化 是 非常 必要 的 。 
机 架 式 服务 器 水 平 插入 机 架 (通常 宽 为 19in) ， 它 





加 ”服务 器 倾向 于 使 用 拥有 诸如 Intel Xeon 和 AMD Opteron 等 多 个 处 理 器 (或 内 核 ) 的 芯片 。 
132 





由 离散 变化 的 高 度 来 表示 ， 高 度 值 为 机 架 单 元 (用 RU 或 U 来 表示 ) 的 倍数 。 根 据 本 章 参考 文献 [7] 
的 定义 ，1RU 等 于 1.75in ( 约 合 4.445cm)。 也 就 是 说 ，1U 服务 器 表示 高 为 1U，2U 服务 器 表示 高 为 
20U ， 依 此 类 推 。 大 多 数 单 插 槽 和 双 插 槽 服务 器 可 用 作 1U 服务 器 。 

机 染 式 服务 副 既 可 以 是 简单 的 金属 外 过， 也 可 以 是 包含 配 电 、 空 气 或 液体 冷却 以 及 键盘 、 视 频 和 
鼠标 交换 机 的 复杂 设备 ， 该 交换 机 支持 单一 键盘 /视频 /鼠标 在 服务 器 之 间 进 行 共享 。 

TA Fr RA a (或 简称 为 刀片 ) 的 结构 比 机 架 式 服务 右 更 紧凑 。 较 小 的 外 形 尺寸 是 通过 去 掉 与 计 
算 不 相关 的 零件 (如 冷却 设备 ) 来 实现 的 。 因 此 ,刀片 可 能 只 不 过 是 一 块 拥有 处 理 器 、 存 储 器 、L/O 
和 和 辅助 接口 的 计算 机 电路 板 。 当 然 ， 这样 的 刀片 式 服务 器 肯定 不 能 独立 运行 。 只 有 将 其 插入 到 包含 缺 
失 模 块 的 机 箱 中 时 ， 它 才能 正常 运行 。 机 箱 内 可 容纳 多 个 刀片 式 服务 器 。 它 还 提供 了 一 台 交 换 机 ， 服 
务 仑 通过 该 交换 机 连接 到 外 部 网 络 。 需 要 注意 的 是 ， 与 机 架 式 服务 器 类 似 ， 机 箱 也 可 置 于 机 架 中 。 

当 机 架 空间 给 定时 ， 它 所 容纳 的 机 架 式 服务 器 要 比 刀片 式 服务 器 多 。 机 架 式 刀片 服务 器 配置 还 具 
有 其 他 优点 : 功 耗 降低 ， 布 线 更 加 简单 ， 成 本 降低 ， 等 等 。 这 些 优点 使 得 刀片 式 服务 器 在 云 计 算 环 境 
中 具有 更 大 的 吸引 力 。 


aia aa +30 


根据 存储 如 何 连 接 到 服务 器 ， 存 储 可 以 分 为 直 
连 式 存储 (DAS) 、 网 络 连接 存储 (NAS) 和 存储 
区 域 网 络 (SAN ) 。 为 简单 起 见 ， 图 6. 2 只 描述 了 
网 络 连接 存储 (NAS) 和 存储 区 域 网 络 (SAN). 

顾名思义 ， 直 连 式 存储 通过 点 对 点 链 路 直接 连 
接 到 处 理 器 (这 种 情形 中 的 主导 技术 是 硬盘 驱动 
i)o HEZ F, 网络 连 接 存 储 和 存储 区 域 网 络 存 
在 于 网 络 中 。 对 于 存储 区 域 网 络 来 说 ， 这 种 网 络 是 
满足 存储 流量 需求 而 构建 的 ， 且 专门 用 于 存储 流 
量 。 网 络 连接 存储 和 存储 区 域 网 络 之 间 的 主要 区 别 
在 于 接口 的 语义 。 网 络 连接 存储 单元 是 文件 或 对 
象 ， 而 存储 区 域 网 络 单元 是 磁盘 块 。 另 一 个 主要 区 人 一 一 iin i 
别 在 于 底层 传输 。 存 储 区 域 网 络 依靠 专门 的 传输 介 三 二 — 人 | 
质 一 一 光纤 信道 进行 传输 ， 且 为 了 存储 流量 ， 已 经 — Paar 
对 光纤 信道 进行 了 优化 。 除 了 了 正 网 络 之 外 ， 网 络 (iSCSIFCoE) 
连接 存储 不 需要 任何 特殊 设备 。 在 仔细 观察 存储 形 | 
式 之 后 ， 将 讨论 两 种 访问 类 型 的 整合 问题 。 

现在 ， 注 意 到 网 络 连 接 存储 和 存储 区 域 网 络 非 | 
常 适用 于 云 计算 , 但 直 连 式 存储 存在 局 限 性 。 云 计 
算 的 重要 特征 之 一 是 基于 资源 可 用 性 和 地 理 位 置 等 
因素 ， 实现 虚拟 机 的 灵活 分 配 。 在 直 连 式 存储 情形 中 ， 当 虚 拟 机 移动 到 新 的 物理 主机 时 ， 相 关 存 储 也 
需要 移动 到 同一 主机 ， 这 可 能 会 导致 消耗 大 量 带宽 和 大 量 时 间 。 

还 可 以 将 存储 进一步 分 为 在 线 存 储 和 离线 存储 。 在 线 存 储 可 以 访问 服务 器 ， 而 设计 用 于 归档 的 离 
线 存 储 无 法 访问 服务 器 。 磁 带 库 和 光盘 库 是 离线 存储 的 常见 实现 方式 。 它 们 通常 通过 能 够 定位 、 取 来 、 
安装 、 色 下 和 放 回 磁带 或 光盘 的 机 如 人 手臂 进行 自动 控制 。 例 如 ， 谷歌 数据 中 心 已 经 使 用 机 器 人 磁 融 
库 进 行 备份 。 

除了 磁带 和 光盘 之 外 ， 常 用 的 存储 介质 还 包括 磁盘 和 集成 电路 ( 即 固态 电子 设备 ) 。 其 中 ， 磁 性 硬 
盘 是 最 流行 的 ” 。 考 虑 到 这 些 硬盘 采用 的 机 制 ， 它 们 更 适合 顺序 访问 而 不 是 随机 访问 。 而 固态 存储 克服 
了 这 一 缺点 。 固 态 存储 最 初 用 于 诸如 智能 手机 、 数 码 相机 和 MP3 (MPEG Audio Layer 3， 音 频 动态 压缩 
第 3 层 ) 音乐 播放 器 等 移动 设备 ， 它 比 硬 盘 更 快 ( 快 100 ~1000 倍 ) ， 且 比 硬盘 更 坚固 ， 但 价格 更 为 昂 
贵 。 但 是 ， 随 着 固态 存储 价格 不 断 下 降 ， 它 已 成 为 一 种 可 行 的 选择 方案 。 固 态 存 储 特 别 适 用 于 云 计算 ， 


© A 1965 年 以 来 ， 硬 盘 在 计算 机 存储 层次 结构 辅助 存储 器 中 也 占据 着 主导 地 位 。 磁 盘 访 问 速度 比 CPU (Central Processing 
Unit， 中 央 处 理 器 ) 速度 慢 得 多 ， 相 差 7 个 数量 级 ， 且 这 一 差距 还 在 拉 大 。 
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由 于 它 能 够 实现 不 相关 应 用 之 间 的 硬件 共享 ， 因 而 使 得 LO 操作 比 以 往 任何 时 候 都 更 随机 。 本 书 将 在 
6.2.7 节 中 进一步 讨论 固态 存储 。 


组 网 kk | 


数据 中 心 的 服务 器 需要 进行 互 连 ， 且 还 需要 连接 到 外 部 世界 。 随 着 服务 器 数量 的 增加 ， 在 给 定 空 
间 内 需要 敷设 更 多 的 电缆 。 柜 顶 (ToR) MÍK (ER) 是 两 种 连接 方法 ， 采 用 的 连接 方法 不 同 ， 布 线 
方案 也 会 有 所 不 同 。 在 柜 顶 (ToR) 方法 中 ， 每 个 机 架 顶 部 都 拥有 一 人 台 交 换 机 ， 机 架 中 的 所 有 服务 器 都 
与 该 交换 机 建立 连接 。 因 此 ， 将 服务 器 连接 到 柜 顶 (ToR) 交换 机 的 电缆 长 度 不 需要 大 于 机 架 高 度 。 通 
常 ， 柜 项 (ToR) 交换 机 能 够 提供 外 部 网 络 访问 功能 。 一 般 情况 下 ， 柜 项 (ToR) 交换 机 拥有 能 够 支持 
同一 机 架 内 服务 器 的 足够 端口 就 万 事 大 吉 了 。 

在 行 未 (EoR) 方法 中 ， 每 排 机 架 的 尽头 都 有 一 台 交 换 机 ， 该 交换 机 与 附近 的 所 有 服务 右 和 其 他 
机 架 中 的 交换 机 建立 连接 。 这 可 能 需要 在 服务 器 和 交换 机 之 间 数 设 不 同 长 度 的 线 缆 。 根 据 机 架 的 实际 
长 度 和 所 需 带宽 ， 可 能 需要 敷 设 光 纤 〈 在 ToR 情形 中 ， 采 用 铜 线 建立 连接 就 足够 了 )。 这 里 ， 布线 成 本 
可 能 会 超过 支持 多 个 链 路 的 服务 器 成 本 。 

行 末 (EoR) 交换 机 置 于 机 架 中 (可 能 会 因 其 尺寸 而 单独 置 于 某 个 机 架 中 )。 它 可 以 提供 网 络 访问 
MAG « 

通常 ，ToR 和 EoR 交换 机 采用 以 太 网 技术 实现 。 稍 后 将 继续 讨论 这 一 话题 。 现 在 ， 注 意 到 ， 以 太 
网 技术 对 数据 中 心 来 说 是 特别 重要 的 ， 因 为 它 具备 不 要 求 使 用 独立 传输 机 制 (如 光纤 信道 ) 来 进行 存 
储 和 处 理 颖 间 通 信 的 潜力 。 图 6. 2 描述 了 采用 普通 以 太 网 传输 机 制 的 下 一 代数 据 中 心 。 

最 后 ， 需 要 注意 的 是 ， 数 据 中 心 聚合 网 络 通过 网 关连 接 到 广域网 (Wide Area Network, WAN), J~ 
域 网 的 另 一 端 可 能 是 单 台 用 户 设 备 或 完整 的 数据 中 心 。 


6.2 存储 相关 事宜 


随 者 连接 到 互联 网 的 用 户 和 设备 数量 不 断 增加 ， 整 个 世界 将 被 数据 淹没 。 互 联网 上 每 天 产生 的 数 
据 流量 超过 1 艾 字 节 (CBN 10" 字 节 )“。 仅 在 2011 年 ， 全 球 就 产生 了 超过 1. 8 亿 字 节 的 数据 (大约 有 3/4 
的 数据 由 人 类 用 户 产 生 )。 数 据 总 量 是 非常 惊人 
的 ， 而 且 还 在 快速 增长 。 对 数据 的 存储 和 处 理 需 
求 对 云 存 储 产 生 了 巨大 的 压力 。 

这 一 压力 主要 体现 在 3 个 方面 : 一 是 存储 容量 
需要 不 断 增加 ; 二 是 存储 的 数据 必须 确保 安全 ; 
三 是 数据 的 访问 必须 更 加 高 效 。 

为 更 加 深入 地 研究 云 存 储 相 关 事 宜 ， 本 书 借 
鉴 了 全 球 网 络 存储 工业 协会 (SNIA) 的 共享 存储 
模型 ”。 该 模型 最 初 是 于 2001 年 开发 出 来 的 ， 反 
映 了 存储 应 作为 多 个 计算 系统 共享 的 独立 资源 进 
行 管理 的 趋势 。 十 多 年 后 ， 云 计算 不 仅 延续 了 这 y 
一 趋势 ， 而 且 显 闭 放 大 了 这 一 趋势 。 -时 

如 图 6.3 所 示 ，SNIA 的 共享 存储 模型 由 多 尼 | 
构成 ， 每 层 以 中 立 实现 方式 向 高 层 提供 特定 服务 。 aoe | 
这 样 ， 可 以 向 高 层 屏蔽 低层 的 实现 细节 ， 且 降低 了 hai 
系统 的 设计 复杂 性 。 从 这 个 意义 上 讲 ， 该 模型 类 ”” 图 6.3 SNIA 共享 存储 模型 
WLF OSI ( Open System Interconnection ， 开 放 式 系 
统 互 联 ) 模型 ”。 








四 ”标准 前 级 exa (X) 是 在 1975 年 第 15 届 国 际 度量 衡 大 会 上 被 批准 的 。 为 了 解决 “科技 进步 所 需 的 超大 测量 尺度 ” ， 针 对 
更 多 字 节 的 前 级 [BME 〈10” 字 节 ) MIZE (10” 字 节 ) ] 在 1991 年 被 采纳 。 按 照 大 数据 这 一 趋势 发 展 ， 不 久 将 需要 超过 
FEF NAT AE. 
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顶部 是 应 用 层 ， 它 使 用 的 是 底层 存储 域 提供 的 服务 。 典 型 的 应 用 实例 是 Web 服务 器 、 搜 索引 擎 、 
分 析 引 擎 和 在 线 交 易 引 擎 。 将 应 用 层 包 含 在 模型 中 只 是 为 了 显示 存储 域 与 其 客户 端 之 间 的 关系 ; 与 存 
储 相关 的 特定 应 用 有 其 特殊 之 处 。 服 务 子 系统 (由 图 6.3 中 的 服务 方 框 来 表示 ) 拥有 诸如 发 现 、 管 理 
安全 和 备份 等 基本 功能 。 

除了 服务 子 系统 之 外 ， 存 储 域 被 划分 为 文件 /记录 层 、 块 聚合 层 和 块 设备 层 。 文 件 /记录 层 为 应 用 
层 提供 服务 ， 一 般 通 过 软件 来 实现 。 它 以 文件 、 文 件 记 录 和 易于 访问 应 用 的 类 似 数 据 项 等 形式 提供 数 
据 。 这 涉及 将 可 访问 应 用 的 数据 项 映射 到 底层 逻辑 构建 块 上 (〈 即 逻辑 卷 - ) 。 数 据 库 管理 和 文件 系统 在 
这 里 得 到 了 广泛 使 用 。 文 件 系统 将 字 节 映射 到 卷 中 的 文件 上 。 类 似 地 ， 数 据 库 管理 系统 将 记录 映射 到 
卷 中 的 表格 上 。 文 件 / 记 录 层 可 以 在 单个 主机 上 实现 ， 也 可 以 作为 网 络 文件 系统 来 实现 。 后 者 是 网 络 连 
接 和 存储 的 一 种 特殊 情况 ， 稍 后 将 对 此 进行 讨论 。 

块 聚 合 层 为 文件 /记录 层 提 供 服 务 。 它 能 够 提供 独立 于 实际 存储 设备 的 块 聚合 功能 ， 并 诠释 了 设备 
如 何 进 行 互 连 ， 以 及 如 何在 设备 之 间 分 配 存储 资源 。 为 此 ， 可 以 通过 主机 级 、 网 络 级 或 设备 级 虚拟 化 
来 实现 聚合 ， 这 涉及 诸如 空间 管理 、 条 带 化 ”和 镜像 "等 任务 。 特 别 是 将 数据 输入 到 存储 设备 和 从 存储 
设备 输出 数据 是 由 一 套 外 设 接口 和 存储 网 络 标准 进行 控制 的 ， 本 书 稍 后 将 会 对 此 进行 详细 介绍 。 

块 设备 层 为 块 聚合 层 提 供 服 务 ， 提 供 固定 大 小 块 的 低级 存储 以 及 诸如 逻辑 单元 编号 、 高 速 缓存 和 
访问 控制 等 功能 。 


6.2.1 BERGE +** 4 


HENT (DAS) 是 最 常见 的 存储 

织 形式 ， 专 门 适用 于 单 台 主机 。 最 初 ， 
i ta 中 主机 和 存 
储 设备 通过 点 对 点 链 路 进行 互 连 ; 人 主机 
负责 对 设备 进行 控制 。 图 6.4 给 出 了 一 个 
实例 (与 SNIA 模型 相关 ) ， 其 中 面 回 块 
的 协议 在 直接 链 路 上 使 用 ， 而 块 聚合 过 程 
要 么 是 由 主机 〈 通 过 逻辑 卷 管理 希 ) 实 
现 的 ， 要 么 是 由 存储 阵列 控制 融 完 成 的 。 
面 回 块 的 协议 主要 负责 处 理 固定 大 小 块 的 
数据 。 相 比 之 下 ， 面 回 文件 的 协议 处 理 可 
变 大 小 文件 的 数据 ， 然 后 将 其 分 成 存储 需 
处 理 的 块 。 诸 如 网 络 文件 系统 (Network 
File System, NFS) 的 网 络 连接 存储 采用 
了 面 回 文件 的 协议 ， 将 在 下 一 节 进 行 详细 
讨论 。 

由 于 直 连 式 存 储 (DAS) 不 易 受 到 网 
络 延 妈 的 影响 ， 因 而 适用 于 存储 诸如 引导 
映像 和 交换 空间 等 本 地 数据 。 根 据 存储 设 [Wai 
备 相 对 于 主机 的 位 置 ， 直 连 式 存储 可 能 是 | 
内 部 的 ， 也 可 能 是 外 部 的 。 主 机 的 内 部 便 
盘 驱 动 器 就 是 内 部 DAS 的 一 个 实例 。 当 然 ， 内 部 DAS 的 总 容量 在 一 定 程度 上 受到 计算 机 机 箱 内 物理 空 
间 的 限制 。 在 这 方面 ， 外 部 DAS 显得 更 加 灵活 。 无 论 DAS 是 内 部 的 还 是 外 部 的 ， 主 机 和 存储 设备 都 需 
要 一 种 用 于 完成 相互 通信 的 接口 ， 以 实现 IO 操作。 图 6.5 准确 描述 了 接口 所 在 的 位 置 。 主 机 上 的 总 线 
适配器 和 存储 设备 上 的 控制 器 实现 了 接口 功能 。 主 机 总 线 适 配器 充当 系统 IO 总 线 和 直接 连接 接口 之 


O ”逻辑 卷 可 以 将 不 连续 的 物理 分 区 组 合 起 来 ， 并 可 跨 多 台 物 理 存储 设备 。 

O ” 卷 是 指 文件 系统 的 所 有 块 。 它 可 能 由 一 种 或 多 种 存储 介质 的 块 构成 。 在 前 一 种 情况 下 ， 也 称 其 为 分 区 。 

O 条 带 化 涉及 对 序列 数据 进行 逻辑 分 区 和 在 并 行 访问 的 多 台 设 备 之 间 存 储 分 区 。 这 样 ， 会 增加 总 的 数据 吞吐 量 。 
四 ”镜像 是 指 在 第 二 组 设备 中 复制 数据 以 实现 故障 保护 。 











间 的 桥梁 ， 并 屏蔽 掉 存 储 设备 的 细节 。 这 样 ， 具 有 标准 接口 的 存储 设备 可 以 连接 到 具有 不 同 处 理 器 和 
架构 的 主机 。 小 型 计算 机 系统 接口 (SCSI) 是 此 类 标准 接口 的 一 个 实例 。SCSI 既 适 用 于 内 部 DAS， 又 
适用 于 外 部 DAS， 还 经 和 常 在 数据 中 心中 使 用 。 

1986 年 ， 美 国 国家 标准 学 会 (ANSI) 首次 对 小 型 计算 机 系统 接口 (SCSI) 进行 了 标准 化 ， 标 准 号 
为 X3. 131 - 1986。 该 标准 基于 施加 特 联 合 系统 接口 (Shugart Associates System Interface，SASI) ， 该 接口 
于 1979 年 由 首 家 磁盘 驱动 器 制造 商 " 和 舒 加 特 联合 公司 发 布 。 鉴 于 随后 的 发 展 ， 也 将 原始 标准 称 为 
SCSI -1。 它 定义 了 一 种 用 于 连接 各 类 外 围 设备 的 并 行 总 线 ， 包 括 硬 盘 驱 动 器 、 磁 带 驱动 器 、CDROM、 
扫描 仪 、 打 印 机 和 主机 总 线 适 配器 。 可 以 通过 菊花 链 模 式 将 多 台 设 备 (或 更 准确 地 说 是 设备 控制 器 ) 
连接 到 同一 总 线 ( 见 图 6.6)， 从 而 形成 多 点 配置 。 然 而 ， 连 接 的 设备 数量 存在 着 极限 值 。 极 限 值 取决 
于 数据 总 线 宽度 。 上 位 宽 的 总 线 最 多 文 持 上 台 设 备 ， 包 括 主机 总 线 适 配器 。 极 限 值 是 由 于 底层 设计 造成 
的 ， 该 设计 将 每 一 个 使 能 位 映射 到 可 分 配给 设备 的 特定 地 址 。 


系统 LO 总 线 


主机 适配器 
Ori oh air) 
4 


SCSI 总 线 
4 


存储 器 总 线 





GS ERROREM č 


图 6.7 给 出 了 8 位 数据 总 线 的 映射 。 需 要 注意 BEE 
的 是 ，SCSI 设备 的 地 址 (或 标识 符 ) 代表 着 一 定 
的 优先 级 ， 在 竞争 过 程 中 ， 它 是 总 线 仲 裁 的 一 个 SCSIID= |] 
重要 因素 。 在 总 线 较 宽 的 情况 下 ， 使 用 相同 的 优 
先 级 方案 。 也 就 是 说 ， 某 个 比特 越 重 要 ， 分 配给 


该 比特 对 应 的 地 址 优先 级 越 高 。 事 实证 明 ， 后 向 
兼容 性 是 非常 重要 的 ， 因 而 需要 一 个 稍微 复杂 
恰当 方案 来 保持 总 线 首 个 字 节 的 优先 级 排名 。 

一 台 设 备 可 以 进一步 与 逻辑 单元 号 ( Logical 
Unit Number, LUN) 可 寻 址 的 多 个 逻辑 单元 关联 。 
对 于 操作 系统 来 说 ， 人 逻辑 单元 号 以 IO 设备 的 形 
式 呈 现 。 多 逻辑 单元 号 设备 的 实例 是 CD (Compact 
Disc， 光 盘 ) 自动 点 唱机 ， 其 中 每 张 CD 都 是 可 独 
立 寻 址 的 逻辑 单元 。 当 然 ， 为 了 给 任何 LO 设备 
提供 服务 ， 同 一 总 线 上 的 设备 需要 能 够 相互 通信 
以 及 与 主机 进行 通信 。 在 高 层次 上 ，SCSI 通信 基于 


SCSI ID = 3 


SCSI ID= 4 


SCSI ID = 5 


TERTS RAR 


SCSI ID =7 





名“ 该 接口 标准 实际 上 是 由 国际 信息 技术 标准 委员 会 (International Committee on Information Technology Standards, INCITS) 的 
X3T9. 2 任务 组 开发 的 。X3T9. 2 任务 组 是 X3T10 技术 委员 会 (Technical Committee, TC) 的 前 身 。 后 来 ，X3TI10 简化 为 
T10。 该 技术 委员 会 负责 制定 SCSI 规范 ， 包 括 串 联 SCSI 的 规范 。 
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如 图 6. 8 所 示 的 主 从 式 模 型 。 在 SCSI 语法 中 ， 我 们 将 发 出 请 求 的 实体 称 为 局 动 器 ， 而 将 响应 请 求 的 实 
体 称 为 目标 。 请 求 可 以 用 于 诸如 读 取 或 写 入 等 VO 操作 (命令) ， 或 者 用 于 诸如 中 止 操 作 等 任务 管理 功 
能 。 在 VO 操作 的 情形 中 ， 数 据 传 输 发 生 在 请 求 和 最 终 啊 应 之 间 。 在 写 操作 中 ， 数 据 传输 的 方向 是 从 
jaar Fl At; 在 谈 操 作 中 ， 数 据 传输 的 方 回 正好 相反 。 


SCSI SCSI 
启动 设备 目标 设备 


协议 服务 
接口 


服务 提供 子 系统 





SCSI 标准 支持 一 组 命令 ， 且 为 每 条 命令 分 配 了 自己 的 操作 码 。 命 令 的 细节 信息 通过 总 线 〈 它 是 服 
务 提 供 子 系统 的 一 部 分 ) 上 的 命令 描述 块 (Command Descriptor Block, CDB) 传输 给 目标 。 由 于 总 线 是 
共享 的 ， 因 而 SCSI 规定 了 如 何在 多 个 设备 之 间 仲 裁 总 线 的 排他 控制 。 通 常情 况 下 ， 拥 有 最 高 优先 级 地 
址 的 设备 将 赢得 仲裁 。 赢 得 仲裁 的 设备 成 为 启动 器 ， 能 够 选择 和 指挥 目标 设备 完成 所 需 的 VO 操作 。 
这 样 ， 将 可 以 为 主机 总 线 适 配器 (Host Bus Adaptor，HBA) 分 配 最 高 优先 级 标识 符 ， 以 确保 其 获得 局 
Bhar HY) fA E o 
多 年 来 ，SCSI 已 经 历 了 多 方面 改进 〈 包 括 可 靠 性 和 性 能 ) ， 使 得 SCSI 对 数据 中 心 越发 有 用 。 表 6. 1 
比较 了 不 同 SCSI 版 本 在 总 线 宽度 、 时 钟 速率 、 吞 吐 量 和 支持 的 设备 数量 等 方面 的 性 能 差别 。 基 于 各 种 
改进 ，SCSI 已 从 一 个 涉及 诸如 协议 和 布线 等 各 个 方面 的 独立 标准 ， 演 变 成 采用 分 层 结构 将 物理 互 连 与 
传输 协议 和 IO 命令 分 开 的 一 系 列 标准 。 
表 6.1 不 同 SCSI 版 本 的 比较 
版 本 总 线 宽度 /bit 吞吐 量 /( Mbit/s) | 支持 的 设备 数量 
SCSI - 1 
快速 SCSI (SCSI -2) 
快速 宽带 SCSI (SCSI -2) 
超速 SCSI (SCSI -3 ) 
超速 宽带 SCSI (SCSI -3 ) 
超速 2 SCSI 
超速 宽带 2 SCSI 
超速 3 SCSI 
超速 —320 SCSI 
超速 —640 SCSI 


— 
oO 
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图 6. 9 所 示 是 不 断 演 进 的 SCSI 系列 的 快照 ， 它 涵盖 了 1O 设备 和 互 连 的 各 种 类 型 。 


块 命令 流 命令 对 象 存储 介质 转换 器 多 媒体 命令 


主 命令 (SPC) 


SCSI 架 构 模 型 (SAM) 
SCSI 并 列 PITAR 光纤 信道 | | 串 行 存储 结构 | | SCSI RDMA 串 行 连接 
接口 协议 协议 SCSI-3 协议 协议 iSCSI SCSI 
(SPI) (SBP) (FCP) (SSA-S3P) (SRP) (SAS) 


架构 的 中 心 是 SCSI 架构 模型 (SCSI Archi- RE 
tecture Model, SAM) ， 这 是 将 系列 标准 连 在 一 起 | SCSI 应 用 层 (SAL) | 
的 纽带 。 它 规定 了 VO 设备 和 互 连 在 对 象 ” 、 协 | 
以 层 和 服务 接口 方面 共同 行为 的 功能 抽象 。 特 别 
地 ， 相 邻 协 议 层 通过 明确 的 服务 请 求 、 指 示 、 响 
应 和 确认 来 进行 交互 ( 见 图 6. 10 ) 。 分 层 结构 支 
持 接口 在 实际 实现 方案 中 灵活 选择 硬件 、 软 件 和 
介质 ， 它 还 支持 每 一 层 独立 演进 。 
作为 串 行 连接 SCSI (Serial Attached SCSI, 
SAS) 的 一 大 重要 进展 ， 是 在 2003 年 首次 发 布 
了 一 项 ANSI (美国 国家 标准 学 会 ) 标准 ， 标 准 
号 为 ANSI INCITS 376 -2003。 当 香 叶 量 增 加 时 ， 
改 为 采用 串 行 连接 能 解决 并 行 连接 面临 的 日 益 辐 
手 的 问题 。 两 者 的 关键 区 别 在 于 物理 层 。 传 统 
SCSI 使 用 多 条 线路 来 并 行 传输 数据 ， 易 出 现 包 | SCSI 传 输 协议 (STP) 层 j 
括 串 扰 和 信号 到 达 时 间 不 一 致 ( 即 定时 偏 移 ) | O O 
等 问题 。 相 比 之 下 ， 串 行 连接 SCSI 使 用 单一 线 上 SCSI 各 层 之 间 的 美 系 
路 来 依次 传输 数据 。 串 行 连接 SCSI 解决 了 并 行 
连接 存在 的 问题 ， 它 能 够 支持 更 快 的 时 钟 和 更 长 的 传输 距离 。 在 编写 本 书 时 ，SAS -3 版 本 中 的 吞吐 量 
已 达到 1. 5Gbit/s， 且 吞吐 量 有 望 继续 增长 。 相 比 之 下 ， 传统 SCSI 的 最 快 版 本 ( 即 超速 - 640 SCSI) 支 
持 的 吞吐 量 达 到 640MbitVs。 同 时 ， 串 行 连接 SCS 还 具有 其 他 优点 ， 包 括 更 好 的 可 扩展 性 ( 即 连 接 成 千 
上 万 全 设备 的 能 力 ) 和 简化 的 布线 。 由 于 串 行 连接 SCSI 的 优势 ，SAS 正在 逐步 取代 其 前 任 一 一 并 行 
ERS, 








O O 例如 ,启动 器 和 目标 之 间 的 关系 由 名 为 nexus 的 对 象 来 表示 。 
O “前 任 ” 是 指 SCSI -3。 对 应 的 命令 集 被 保存 在 存储 区 域 网 络 (SAN) 的 关键 协议 栈 中 ， 该 协议 栈 是 同时 开发 的 。 稍 后 会 
讨论 存储 区 域 网 络 (SAN). 
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实际 上 ， 小 型 计算 机 系统 接口 (SCS) 技术 的 演进 遵循 了 高 级 技术 附件 (Advanced Technology At- 
tachment, ATA) 的 发 展 路 径 ， 这 是 一 种 适用 于 个 人 计算 机 (Personal Computer, PC) 和 电子 设备 中 内 
部 直 连 式 存 储 的 低 成 本 流行 接口 。 最 初 ，ATA 是 作为 IBM PC AT 的 并 行 接口 设计 的 ， 并 最 终 导 致 串 行 
高 级 技术 附件 (Serial Advanced Technology Attachment, SATA) WEM, H ETit SCS] 最 终 采 用 了 
SATA。 其 中 ， 串 行 连接 SCSI 使 用 点 对 点 互 连 (与 SATA 一 样 ) ， 它 支持 SATA 信号 的 超 集 (这 是 通过 
电力 线 传输 的 ， 用 于 初始 化 、 复 位 和 速度 协商 的 加 电 模 式 ) ， 并 采用 与 SATA 兼容 的 连接 器 。 因 此 ， 实 
现 一 组 SAS 和 SATA 设备 的 混合 互 连 是 完全 可 能 的 ， 这 反 过 来 又 提高 了 SATA 技术 的 相关 性 以 及 用 于 满 
足 数 据 中 心 需 求 的 外 部 存储 的 后 续 扩 展 性 (RA eSATA) 。 

点 对 点 互 连 是 菊花 链 模 式 的 一 种 背离 。 当 要 实现 两 台 以 上 的 SAS 设备 互 连 时 ， 它 需要 一 种 称 为 扩 
ear HPAL. Bink 〈 与 充当 局 动 器 、 目 标 或 兼 有 两 种 功能 的 SAS 设备 不 同 ) 本 质 上 是 一 种 支持 
局 动 右 连接 到 多 个 目标 的 虚拟 电路 交换 机 。 它 通常 采用 3 种 路 由 方法 来 实现 这 一 目标 : 直接 路 由 、 表 
路 由 和 递减 路 由 。 在 直接 路 由 中 ,扩展 器 识别 连接 请 求 的 目标 是 直接 进行 连接 的 ， 并 将 该 请 求 按 某 路 
径 发 送出 去 。 在 表 路 由 中 ， 扩 展 器 将 基于 路 由 表 ( 它 是 由 发 现 过 程 提供 或 创建 的 ) 将 连接 请 求 路 由 到 
连接 扩展 器 处 。 在 递减 路 由 中 ， 扩 展 器 使 用 其 他 两 种 方法 将 尚未 解析 的 连接 请 求 路 由 到 男 一 个 能 够 解 
析 该 请 求 的 扩展 器 处 。 

扩展 需 分 为 两 类 : 边缘 扩展 器 和 扇 出 扩 
展 器 。 它 们 之 间 的 主要 区 别 是 可 以 连接 的 扩 
展 右 数量。 边缘 扩展 需 可 以 连接 到 多 人 台 SCSI 
设备 ， 但 只 能 与 另 一 台 扩 展 器 建立 连接 。 相 
kè TF, Bid Rata) Wee BI ZG SCSI 设 
备 和 多 台 扩展 器 。 图 6. 11 给 出 了 一 种 包含 I 
台 主 机 总 线 适 配 瘟 (HBA)、5 台 SAS 存储 设 ' 
备 和 2 台 扩 展 器 的 示例 配置 。 主 机 总 线 适 配 i 
ar (HBA) 通过 扩展 器 中 提供 的 专用 虚拟 电 SAS 主 机 总 线 适 配器 (局 动 器 ) 
路 以 点 对 点 的 方式 连接 到 每 台 存 储 设 备 。 通 
过 增加 扩展 器 数 ， 可 以 非常 简单 地 实现 与 更 
多 SAS 设备 的 互 连 。 扩 展 右 的 使 用 相对 较 灵 
活 从 而 使 得 串 行 连接 SCSI 能 够 支持 比 传统 
SCS] 更 多 的 设备 。 然 而 ， 这 些 增益 是 以 牺牲 


扩展 带 <*- 





简单 为 代价 的 。 一 系列 新 需求 开始 出 现 ， 包 o SAS 目 标 设备 
括 连接 和 配置 管理 的 需求 、 寻 址 方案 健壮 性 民 图 6IIUSAS 配 置 实例 
需求 (与 并 行 总 线 的 物理 布局 无 关 )， 以 及 
SAS 设备 和 扩展 器 之 间 的 通信 机 制 。 

SAS 架构 支持 3 种 协议 : 


1) 83% SCSI 协议 (Serial SCSI Protocol ，SSP) ， 适 用 于 两 台 SAS 设备 之 间 以 及 SAS 设备 和 扩展 器 
之 间 的 通信 。 该 协议 在 增加 对 多 台 启 动 器 和 目标 的 文 持 的 同时 ， 保 留 了 SCSI 命令 集 。SSP 是 串 行 连接 
SCSI 中 的 主要 协议 。 

2) SATA 隧道 协议 (SATA Tunneled Protocol ，STP) ， 它 支持 SAS 启动 器 设备 通过 扩展 器 与 SATA 
目标 设备 进行 通信 。 作 为 网 关 的 扩展 器 在 发 起 端 采 用 STP; 在 目标 端 采 用 SATA 协议 。STP 对 SATA 进 
FITIR, URSA. 

3) 串 行 管理 协议 (Serial Management Protocol ，SMP) ， 用 于 与 扩展 器 进行 通信 。 它 涵盖 了 发现 和 配 
置 管理 。 

图 6. 12 给 出 了 SAS 架构。 正如 OSI 模型 所 描述 的 ， 每 一 层 都 为 上 层 提 供 服 务 ， 并 利用 下 层 提 供 的 
服务 。 
1) 物理 层 负责 处 理 线 缆 、 连 接 器 和 收发 器 的 物理 和 电气 特性 。 

2) Phy 层 负责 处 理 线路 编码 、 带 外 信号 和 串 行 传输 所 需 的 其 他 准备 工作 〈 如 速度 协商 ) 。 层 的 名 
称 反 映 了 逻辑 构造 Phy， 它 代表 了 设备 上 的 收发 右 (由 发 送 右 和 接收 器 组 成 )。Phy 层 拥 有 设备 中 唯一 
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应 用 层 
SCSI 操 作 、ATA 操 作 和 SAS 管 理 
| sa lee 
SSP、STP 和 SMP 的 帧 定义 
端口 层 
TT Te 


链 路 层 
针对 SSP、STP 和 SMP 的 连接 管理 和 流量 控制 
Phy 层 
线路 编码 和 带 外 信 令 
物理 层 
线 绕 、 连 接 器 的 物理 和 电气 特性 





的 8 位 标识 符 。 标 识 符 是 由 管理 功能 进行 分 配 的 。 其 值 是 大 于 或 等 于 0 上 且 小 于 设备 上 物理 标识 符 数 的 整 
数 。 在 线路 编码 中 ， 串 行 连接 SCSI (SAS) 规定 了 8b/10b， 服 从 光纤 信道 (FC) 的 引导 〈 稍 后 将 进行 
讨论 ) 8b/10b 最 初 是 由 IBM 研究 人 员 ” 开发 出 来 的 用 于 高 速 数据 传输 的 编码 技术 。 名 字 反 映 了 编码 
方案 的 一 个 关键 特征 : 在 传输 之 前 ， 需 要 完成 数据 块 从 8 位 到 10 位 的 变换 。 对 该 变换 进行 优化 ， 使 得 
每 个 编码 块 中 拥有 足够 的 转换 ( 即 从 0 到 1 或 从 1 到 0)， 以 确保 发 送 方 和 接收 方 保持 同步 ， 同 时 尽 可 
能 使 0 和 1 的 数目 相等 ， 以 确保 直流 分 量 最 小 。 从 8 位 到 10 位 的 扩展 为 这 种 优化 提供 了 足够 的 空间 ， 
但 同时 会 产生 25% 的 传输 开销 。 相 比 之 下 ， 在 10Mbit/s 以 太 网 中 使 用 的 曼彻斯特 编码 具有 100% 的 传 
输 开 销 。 随 着 速度 的 增加 ， 大 开销 成 为 一 个 不 容 忽视 的 问题 。 

3) 链 路 层 定 义 了 线 绕 的 原型 及 其 编码 ， 以 及 处 理 过 程 (如 连接 管理 和 流量 控制 )。 针 对 SSP, STP 
AL SMP, 分别 定义 了 3 种 链 路 层 。 

4) 闯 口 层 主 要 负责 管理 端口 上 的 物理 特征 。 端 口 包含 一 个 或 多 个 物理 特征 ， 并 由 设备 制造 商 分 配 
唯一 的 标识 符 。 标 识 符 是 所 有 通信 中 使 用 的 地 址 。 它 采用 全 球 通用 名 称 格式 ， 长 度 为 64 位 ， 光 纤 信 道 
也 支持 这 一 格式 ( 稍 后 将 对 其 进行 讨论 )。 

5) 传输 层 涉 及 SCSI 架构 模型 《SAM) 中 定义 的 传输 服务 以 及 串 行 SCSI 协议 (SSP), SATA 隧道 
协议 (STP) 和 串 行 管理 协议 (SMP) 的 成 帧 问题 (包括 帧 格式 )。 在 串 行 SCSI 协议 (SSP) 情况 下 ， 
帧 格式 包含 命令 描述 块 (CDB) 数据 结构 和 其 他 结构 用 来 传输 与 SCSI 操作 相关 的 信息 。 

6) 应 用 层 文 持 SCSI 操作 、ATA 操作 和 SAS 管理 。 例 如 ， 为 了 向 服务 器 发 送 命令 ， 应 用 客户 端 能 
够 调用 适当 的 传输 服务 (通常 以 过 程 调用 的 形式 来 实现 )。 

本 章 参考 文献 [10，11] 提供 了 有 关 ATA、SCSI 及 SATA、SAS 技术 的 附加 信息 。 


6.2.2 网络 连接 存储 xe 


网 络 连 接 存 储 (NAS) 能 够 通过 局 域 网 (Local Area Network, LAN) 提供 文件 级 或 对 象 级 访问 。 将 
存储 放 到 网 上 有 利于 多 台 计 算 机 之 间 的 信息 共享 ， 并 简化 相关 的 存储 管理 。 在 这 方面 ， 网 络 连接 存储 
非常 适用 于 云 计 算 ， 数 据 中 心 的 高 容量 、 高 可 用 性 NAS 系统 的 快速 发 展 证 实 了 这 一 点 。 

网 络 文件 系统 是 网 络 连 接 存 储 最 早期 和 最 著名 的 表现 形式 。 通 过 应 用 层 协 议 ， 可 以 访问 任意 数量 
的 远程 客户 端 ， 仿 佛 这 些 客 户 端 就 是 本 地 的 一 样 。 图 6. 13 描述 了 网 络 文件 系统 的 结构 。 为 了 便于 解释 
网 络 连 接 存 储 ， 我 们 回顾 一 下 最 初 由 Sun Microsystems 公司 提出 的 文件 系统 的 概念 及 广泛 应 用 
的 NFS . 
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操作 系统 负责 维护 主机 自 带 的 文件 系统 。 在 最 
高 级 别 ， 文 件 系 统 将 以 文件 和 目录 ” 集 (或 文件 夹 ) 
的 形式 呈现 。 文 件 和 目录 可 以 进行 生成 、 删 除 、 打 
开 、 关 闭 、 读 取 和 写 入 。 它 们 也 可 以 从 一 个 目录 移 
到 男 一 个 目录 。 大 多 数 文件 系统 支持 分 层 结构 : A 
录 可 能 有 子 目 录 ; 子 目录 还 可 能 有 子 子 目录 ， 诸 如 
此 类 。 图 6. 14 给 出 了 这 样 一 种 目录 。 

文件 系统 以 块 为 单位 对 空间 进行 管理 ， 并 与 直 
接连 到 主机 的 后 端 存 储 协 同 工 作 。 块 是 一 种 长 度 固 
定 的 字 节 序列 ， 可 以 作为 整体 对 其 进行 访问 。 文 件 
能 够 以 块 的 链接 列表 形式 来 实现 。 对 用 户 来 说 ， 操 
作 系 统 不 同 ， 文 件 的 表示 方法 也 不 同 。 早 期 的 操作 
系统 将 文件 定义 为 指定 格式 的 记录 列表 。 相 比 之 下 ， 
在 UNIX (以 及 Linux) 操作 系统 中 ,文件 只 是 一 个 
字 节 序列 。 

块 大 小 受到 底层 人 存储 介质 的 逻辑 结构 的 约束 。 a 
传统 上 ， 可 以 将 其 设置 为 磁盘 (这 是 过 去 50 年 的 主 | ella Soe 
要 存储 介质 ) 上 可 以 进行 处 理 的 最 小 单元 的 整数 倍 。 





文件 1 2 NFL 文件 2 文 作 3 SCHR R XA 





E -1 


Wa A Fe — “> Bk A, FARHA RAAR ME 
都 涂 覆 有 磁性 材料 (如 氧化 铁 ) 。 我 们 也 称 其 为 硬 
盘 ， 因 为 盘 片 是 由 刚性 材料 制 成 的 。 典 型 硬盘 驱 
动 磊 的 结构 如 图 6. 15 Pray. BA REFER EW 
恒定 速度 旋转 ， 且 包含 一 组 读 / 写 头 的 盘 臂 (每 个 
表面 有 一 个 读 / 写 头 ) 沿 着 平行 的 径 回 线 移动 。 读 
写 操作 是 通过 头 部 和 相关 盘 片上 与 其 相对 的 微小 
表面 区 域内 的 涂 层 材料 之 间 的 电磁 相互 作用 来 实 
现 的 。 显 而 易 见 ， 区 域 越 小 ， 磁 盘 的 总 容量 就 越 
大 。 物 理 和 工程 领域 的 进步 使 得 面 密度 稳步 提升 。 
特别 是 ， 物 理学 家 Albert Fert 和 Peter Grünberg 
F 1988 年 独立 发 现 “ 巨 磁 电 阻 ”， 从 而 使 得 面 密 
度 超过 100Gbit/in’ 成 为 可 能 ， 并 因此 获得 了 2007 
年 诺 贝 尔 物理 奖 。 举 例 来 说 ， 一 个 内 存 容 量 为 
160GB 的 iPod 经 典 版 只 有 巴掌 大 小 ， 而 首 个 千 兆 字 
节 容 量 的 硬盘 驱动 器 (IBM 3380) 却 与 冰箱 一 样 大 。 





O 可 以 将 目录 视 为 一 种 特殊 文件 ， 它 包含 有 与 文件 和 子 目 录 相 关 的 信息 。 
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如 图 6. 16 所 示 ， 可 以 将 每 个 盘 片 的 表面 
划分 成 被 称 为 磁道 的 同心 圆 (不 同 表面 上 相 
同 半径 的 磁道 集 形成 一 个 柱 面 )。 每 一 磁道 依 
次 被 划分 为 数 百 个 扇 区 。 户 区 是 磁盘 上 可 寻 
址 的 最 小 单位 。 因 此 ,文件 块 大 小 是 悄 区 的 
倍数 。 然 而 ， 使 用 的 精确 块 大 小 存在 着 折 中 
问题 。 举 例 来 说 ， 如 果 块 非常 大 ， 则 大 多 数 
文件 将 绑 定 多 于 所 需 的 块 ， 从 而 浪费 存储 空 
间 。 相 反 ， 如 果 块 非常 小 ， 则 大 多 数 文件 将 
跨越 许多 块 ， 从 而 可 能 会 导致 不 连续 问题 的 
发 生 。 所 以 ， 对 文件 的 访问 受到 多 次 寻 道 和 
旋转 延迟 的 影响 ”。 此 外 ,非常 小 的 块 可 能 会 
导致 用 于 跟踪 空闲 块 的 数据 结构 过 大 。 用 于 
ERAN GM ERA RANS M a 
征 函 数 。 第 nn 位 的 值 表示 第 n 个 块 是 处 于 空 _ os | 
状态 〈 值 为 1) 还 是 处 于 已 分 配 状态 〈 值 为 70)°, 大 位 图 、 多 次 寻 道 和 旋转 延迟 都 会 降低 性 能 。 
注意 的 是 ， 谷 歌 文件 系统 9 (Google File System, GFS) "HEAT 64KB 的 块 。 该 系统 选择 大 块 ， ariel 
持 谷歌 处 理 大 小 超过 LOOMB 的 数 百 万 个 文件 的 需求 。 

为 了 实现 管理 的 目标 ， 操 作 系 统 存储 与 文件 系统 相关 的 信息 (如 空闲 块 的 类 型 、 布 局 和 位 图 ) 以 
及 与 每 个 文件 相关 的 信息 (如 指向 第 一 个 块 的 指针 、 文 件 所 有 者 、 最 后 修改 时 间 和 访问 权限 )。 

如 果 系 统 在 文件 更 新 操作 期 间 月 演 ， 则 文件 数据 可 能 受到 损坏 。 现 代 文 件 系 统管 理 能 够 在 一 定 程 
度 上 修复 损坏 的 数据 。 虽 然 存在 着 与 块 和 文件 一 致 性 相关 的 算法 ， 但 是 在 大 型 系统 中 ， 运 行 这 些 算法 
需要 相当 长 的 时 间 。 幸 运 的 是 ， 还 有 其 他 选择 〈 如 日 志 )。 这 里 ， 系 统 会 在 单独 的 存储 区 域 中 保留 所 有 
预期 的 更 新 日 志 ”。 

更 新 要 么 全 部 更 新 ， 要 么 全 部 不 更 新 ， 必 须 将 其 作为 原子 事务 组 合 在 一 起 。 在 实际 更 新 进行 时 ， 
文件 系统 需要 跟踪 进度 。 如 果 发 生 故 障 ， 则 可 以 在 恢复 期 间 使 用 包含 在 日 志 中 的 信息 ， 通 过 重复 所 需 
的 更 新 或 撤销 不 完整 的 更 新 ， 来 修复 任何 不 一 致 的 地 方 。 更 恰当 地 说 ， 称 前 者 为 重复 日 志 记 录 (或 新 
值 ) ， 后 者 为 撤销 日 志 记 录 (或 旧 值 )。 日志 记录 是 高 效 的 ， 因 为 只 需要 检查 最 新 的 日 志 ， 而 不 是 检查 
整个 文件 系统 。 如 果 日 志 还 记录 了 实际 文件 的 内 容 ， 则 文件 恢复 也 是 可 能 实现 的 。 毋 庸 置疑 ， 因 日 志 
记录 而 导致 的 额外 操作 可 能 会 对 系统 性 能 产生 影响 。 然 而 ， 折 中 方案 是 大 多 数 现代 文件 系统 支持 日 志 
记录 功能 。 德 普 纳 主编 的 图 书 ”对 日 志 记 录 进 行 了 更 为 详尽 的 讨论 。 

下 面 列 出 了 第 见 文件 系统 的 部 分 实例 : 

1) UNIX 文件 系统 (UNIX File System, UFS); 

2) Linux 扩展 文件 系统 ( ext2/ext3/ext4 ) ; 

3) Windows 新 技术 文件 系统 (New Technology File System, NTFS) ; 

4) ISO 9660 (也 称 为 光盘 文件 系统 )。 

在 这 些 实例 中 ，ISO 9660 尤其 引 人 注 目 ， 它 不 与 任何 特定 的 操作 系统 相关 ， 只 是 针对 操作 系统 提 
出 了 用 于 支持 多 种 类 型 文件 系统 的 一 般 需 求 。 需 要 注意 的 是 ，ISO 9660 文件 系统 的 镜像 可 以 通过 电子 
传输 作为 一 个 文件 (扩展 名 为 . iso) 来 获取 。 我 们 将 其 称 为 ISO 镜像 ， 这 一 格式 已 被 用 于 分 发 软件 模 
块 甚至 虚拟 机 镜像 。 

操作 系统 可 能 直接 支持 不 同 的 文件 系统 ， 而 不 会 试图 集成 它们 。 在 这 种 情况 下 ， 用 户 进 程 可 以 看 
到 不 同文 件 系统 的 存在 。 或 者 ， 操 作 系统 可 以 在 文件 系统 的 顶部 添加 一 个 抽象 层 来 隐藏 其 差异 ， 如 图 


O ”将 磁头 定位 在 给 定 柱 面 上 的 操作 称 为 寻 道 ， 且 执行 此 操作 所 需 的 时 间 称 为 寻 道 时 间 。 一 旦 磁头 到 达 所 需 的 磁道 ， 则 需要 
更 多 的 时 间 来 旋转 到 磁头 下 方 的 准确 扇 区 。 我 们 称 这 一 时 间 为 旋转 延迟 。 

O ”位 图 本 身 存储 在 众所周知 的 位 置 ， 并 消耗 磁盘 空间 。 

© Colossus 是 谷歌 文件 系统 (GFS) 之 后 的 下 一 代 文 件 系统 ， 充 分 吸取 了 GFS 的 经 验 教训 。 

@ 存储 日 志 的 位 置 很 重要 ， 因 为 存在 着 高 性 能 访问 的 需求 。 在 讨论 固态 存储 时 ， 将 再 次 提 到 这 一 主题 。 
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6.17 Fitas. 5 Sun Microsystems 公司 首创 的 虚拟 文 
件 系统 (Virtual File System, VFS) WER, i 
多 现代 操作 系统 (特别 是 那些 类 似 于 UNIX 的 操作 


系统 ) 都 实现 了 这 种 层 。VFS 层 为 用 户 进程 提供 与 文件 系统 无 关 的 接口 
与 文件 系统 无 关 的 接口 ， 支 持 诸如 打开 、 读 取 和 


写 人 等 文件 操作 过 程 中 的 标准 系统 调用 。VFS JZ 
还 为 底层 文件 系统 提供 了 一 种 接口 。 只 要 底层 文 
件 系 统 支持 该 接口 ， 则 VFS 层 就 不 关心 这 些 文 件 
系统 的 细节 ， 包 括 文件 存储 的 位 置 。 的 确 ，Sun 
Microsystems 公司 原始 的 VES 包括 对 诸如 网 络 文件 


系统 (NFS) 等 远程 文件 系统 的 支持 ， 接 下 来 开始 So ee 


20 世纪 80 年 代 ，Sun Microsystems 公司 设计 网 
络 文件 系统 (NFS) 的 初衷 是 在 安装 有 不 同 操作 系 
统 的 网 络 计算 机 之 间 实 现 文件 共享 。 图 6. 18 展示 了 Sun Microsystems 公司 的 实现 方案 ， 其 中 大 多 数 类 
UNIX 操作 系统 都 基本 上 采用 了 这 一 方案 。 如 图 6. 18 所 示 ，NFS 通过 虚拟 文件 系统 与 操作 系统 进行 集 
成 ， 这 是 一 种 天 作 之 合 。 当 用 户 进程 通过 系统 调用 尝试 访问 文件 时 ， 虚 拟 文件 系统 (VFS) 确定 文件 
是 远程 的 还 是 本 地 的 。 如 果 文 件 是 远程 的 ， 则 调用 相应 的 NFS 过 程 。NFS 本 身 是 基于 客户 端 / 服 务 器 
的 。NFS 客户 端 通过 NFS 协议 来 发 起 请 求 ， 而 NFS 协议 依赖 于 远程 过 程 调 用 (Remote Procedure Call, 
RPC)‘, NFS 服务 器 只 响应 请 求 ， 自 身 不 采取 任何 行动 。 使 用 RPC 可 以 隐藏 与 网 络 相关 的 详细 信息 。 
H TARAR (大 端 或 小 端 ) 的 机 器 ，RPC 又 需要 一 种 表示 层 协 议 。Sun Microsystems 公司 的 RPC 
消息 协议 所 由 IETF (Internet Engineering Task Force， 国 际 互联 网 工程 任务 组 ) 进行 了 标准 化 ， 并 依赖 
于 外 部 数据 表示 (External Data Representation, XDR) 标准 。 与 抽象 语法 标记 1 (Abstract Syntax Nota- 
tion 1, ASN.1) 类 似 ，XDR ”是 基本 数据 类 型 (如 字符 串 、 整 数 、 布 尔 和 数组 ) 的 一 种 通用 在 线 表 
IW, ERM SRA. FIF AERTS o 





虚拟 文件 系统 虚拟 文件 系统 


到 <、 
文件 文件 文件 
系统 B 系统 B 系统 A 
| ; 
i 没有 设备 设备 
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在 收 到 RPC 调用 后 ， 服 务 器 会 在 服务 器 端 机 器 上 调用 VFS 中 的 相应 操作 ， 最 终 实现 本 地 文件 系统 
的 操作 。 为 了 返回 结果 ， 需 要 回溯 图 6. 18 中 跨 网 络 的 路 径 。 该 架构 的 优点 是 客户 端 和 服务 器 问 是 对 称 
的 。 因 此 ， 在 同一 台 机 器 上 实现 客户 端 和 服务 句 端 都 是 比较 简单 的 。 

具体 来 说 ， 要 使 远程 客户 机 能 够 访问 文件 系统 ，NFS 服务 器 应 将 其 导出 。 要 访问 远程 文件 系统 的 
目录 ，NFS 客户 端 通过 安装 协议 将 其 移植 (或 按 UNIX 语法 安装 ) 到 本 地 文件 系统 。 在 接收 到 来 自 于 客 
户 机 的 安装 请 求 后 ， 服 务 器 端 根据 预先 设置 的 策略 来 控制 对 文件 系统 的 访问 ， 并 做 出 相应 啊 应 。 一 且 
客户 端 收 到 成 功 的 响应 ， 远 程 目 录 即 成 为 本 地 文件 系统 的 一 部 分 〈 见 图 6. 19) ， 且 用 户 进程 可 以 通过 常 
规 系 统 调用 来 访问 远程 目录 。 用 于 文件 访问 的 客户 端 和 服务 器 端 之 间 的 实际 交互 是 通过 NFS 文件 协议 
实现 的 。 
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文件 系统 实例 


用 户 进程 


大 多 数 相应 的 RPC 例 程 能 够 很 好 地 映射 
到 用 于 文件 操作 的 常规 UNIX 系统 调用 。 例 
如 ， 图 6. 20 显示 了 远程 文件 的 打开 、 读 取 和 | 
关 闭 操 作 open(“myfile” offset) 

一 个 有 趣 的 细微 差别 是 : 关闭 系统 调用 
不 会 导致 RPC 调用 。 这 有 两 大 原因 : 首先 ， file descriptor i 
由 于 用 来 为 故障 发 现 提 供 便 利 的 服务 器 采用 
的 是 原始 无 状态 设计 (不 跟踪 过 去 的 请 求 ) ， 
因而 NFS 协议 没有 关闭 例 程 。 第 二 ， 在 这 种 ea a 
情况 下 ， 不 存在 文件 修改 的 问题 。 Data 

即使 远程 文件 操作 具有 与 RPC 对 应 的 协 
以 ， 它 也 不 一 定 会 导致 RPC 调用 。 当 信息 存 
储 在 客户 端 缓存 中 时 ， 不 需要 进行 此 类 调用 ， 
这 降低 了 远程 过 程 调 用 的 数量 ， 并 提高 了 系 
统 性 能 。 然 而 ， 缓 存 使 得 维护 文件 的 一 致 性 
变 得 困难 。 例 如 ， 对 某 个 站 点 处 的 文件 写 操 
作 ， 可 能 在 其 他 站 点 打开 并 读 取 此 文件 时 变 ae 
得 无 法 正常 显示 。 j NES 实现 远程 文件 操作 的 实例 

NFS 目 出 现 以 来 ， 经 历 了 数 次 更 新 。 在 这 一 过 程 中 ,无 状态 设计 的 限制 条 件 已 经 放宽 ， 文 件 一 致 
性 得 到 改善 ， 安 全 性 得 到 加 强 。 本 章 参考 文献 [15] 对 NFS 及 其 演变 进行 了 深入 的 阐述 。 
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NFS 客 户 端 


lookup(file—handle,offset) 
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在 结束 NAS 主题 讨论 之 前 ， 观 察 到 它 的 实现 形式 通常 为 独立 磁盘 元 余 阵 列 (Redundant Arrays of In- 
dependent Disks, RAID), KH RAID 技术 文 持 从 多 个 单独 磁盘 故障 中 进行 恢复 ， 并 从 总 体 上 提高 NAS 
的 性 能 和 可 用 性 。 





6.2.3 ”存储 区 域 网 络 **x 


从 历史 的 角度 来 看 ， 直 连 式 存储 (DAS) 是 一 种 烟 道 式 技术 ， 这 使 其 难以 共享 存储 资源 和 存储 信 
Eo WERT (NAS) 缓解 了 这 一 问题 ,但 仍 有 改进 的 空间 。 特 别 是 存储 吞吐 量 受 到 所 采用 的 特 
定 网 络 技术 的 限制 以 及 块 级 VO 访问 不 可 用 的 问题 。 这 就 是 存储 区 域 网 络 (SAN) 产生 的 背景 。 实 质 
E, SAN 是 一 种 专门 用 于 实现 存储 系统 互 连 的 高 速 网 络 ， 它 支持 资源 池 和 对 资源 池 的 块 级 访问 。SAN 
主要 基于 光纤 信道 (FC) ， 这 是 一 种 综合 了 串 行 VO 总 线 和 交换 网 络 优点 的 标准 技术 。 总 线 的 优点 是 
(反映 在 “信道 ”一 词 的 选择 中 ) 允许 主机 查看 通过 光纤 信道 以 本 地 连接 形式 相连 的 存储 设备 ， 并 拥 
有 小 型 计算 机 系统 接口 (SCS) 可 靠 传输 的 特性 。 网 络 的 优点 是 支持 多 个 协议 的 灵活 性 和 存储 设备 远 
距离 的 动态 连接 。 

美国 国家 标准 学 会 (ANSI) 对 光纤 信道 标准 的 制定 始 于 1988 年 ， 最 终 形成 了 ANSI X 3. 230 - 1994 
规范 。 国 际 信息 技术 标准 委员 会 (INCITS) 的 Tl1 技术 委员 会 与 T10 技术 委员 会 (主要 负责 与 FC 密切 
相关 的 SCSI 项 目标 准 化 ) 一 起 ， 继 续 推 进 光纤 信道 的 标准 化 工作 。 

作为 一 种 开放 标准 ， 光 纤 信 道 (FC) 的 分 层 结构 如 图 6. 21 所 示 。FC -0 定义 了 采用 不 同 速率 进行 
串 行 无 损耗 传输 ( 误 码 率 低 ) 所 使 用 的 收发 器 、 连 接 器 、 电 缆 的 物理 和 电气 特性 。 迄 今 为 止 ， 最 快 的 
光纤 信道 ( 称 为 32G FC) 在 每 个 方向 上 支持 3. 2 Gbit/s 的 传输 速率 。 它 支持 光纤 和 铜 缆 两 种 类 型 ， 甚 
至 可 以 在 端 对 端 路 径 中 采用 铜 线 和 光纤 混合 线 缆 ”。 


(FC-2P) 物 理子 层 : 帧 定义 和 传输 


线路 编码 、 差 错 控制 、 收 发 器 操作 
传输 介质 和 收发 费 的 物理 和 电气 特性 





FC -1 | 涉及 线 膨 编码 和 相关 的 收发 操作 。 特别 是 它 定义 了 适用 于 高 速 数据 传输 的 一 系列 编码 广 
R, fi 256b/257b, 64b/66b 和 8b/10b。 通 第 情况 下 ， 这 些 编码 方案 支持 接收 端的 时 钟 恢复 ， 使 其 能 
够 在 发 送 和 接收 期 间 检测 到 误 码 ， 并 有 助 于 实现 传输 块 对 齐 。 您 可 能 会 记得 采用 8b/10b 编码 方案 的 串 
行 连接 SCSI (SAS) 。 该 编码 方案 具有 25% 的 传输 开销 ， 因 而 对 于 更 快 版 本 的 光纤 信道 (FC) 而 言 效 
率 不 够 高 。 表 6. 2 给 出 了 迄今 为 止 每 种 光纤 信道 版 本 所 采用 的 编码 方案 。 简 而 言 之 ，64by66b 编码 方案 
(也 适用 于 10G 和 100G 以 太 网 ) 在 传输 之 前 ， 将 每 个 64 位 块 转换 为 66 位 块 。 256b/257b 方案 建立 在 
64b/66b 方案 的 基础 之 上 ， 只 是 在 传输 前 将 每 4 个 64b/66b 位 块 进一步 转换 为 257 位 块 。FC -1 还 定义 


”科技 术语 中 的 拼写 选择 (fibre MRE fiber) 旨 在 传达 这 种 广泛 布线 支持 的 含义 。 
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了 多 个 有 序 集 〈 即 某 些 编码 比特 模式 ) 。 其 中 包括 用 于 标记 帧 边界 的 帧 分 隔 符 ， 以 及 用 于 表示 端口 是 否 
准备 好 发 送 和 接收 的 原始 信号 。 
表 6.2 光纤 信道 和 线路 编码 


= wo 
= en 


FC -2 层 由 3 个 子 层 构成 ， 分 别 是 物理 子 层 〈FC -2P) 、 复 用 子 层 (FC -2M) 和 虚拟 子 层 (FC- 
2V)。FC -2P 涉 及 帧 格式 〈 物 理 链 路 上 传输 信息 的 基本 单位 ) ， 以 及 与 发 送 和 接收 帧 有 关 的 事项 (如 
每 条 链 路 的 流量 控制 )。 帧 格式 包括 用 于 检测 和 纠正 传输 差错 的 循环 元 余 校 验 (Cyclic Redundancy 
Check, CRC) 字段 2 。 

流量 控制 机 制 能 够 防止 发 送 机 回 接收 机 发 送 超过 接收 机 处 理 能 力 的 帧 。 它 需要 一 种 反馈 机 制 来 支 
持 发 送 机 来 调节 其 传输 。 如 果 发 送 的 帧 过 多 ， 则 接收 机 将 丢 帧 。 丢 弃 的 帧 需要 进行 重 传 ， 这 会 加 剧 拥 
Eo 考虑 到 无 损 帧 传输 的 要 求 ， 流量 控 制 在 光纤 信道 中 尤其 重要 。 为 此 ， 光 纤 信 道 采用 一 种 基于 信用 
概念 的 流量 控制 机 制 。 信 用 是 接收 机 端 用 于 接收 帧 的 最 大 缓冲 区 数 >。 在 登录 过 程 ( 稍 后 进行 讨论 ) 
中 ， 相 关 端 口 〈 即 发 送 机 和 接收 机 ) 之 间 需 要 协商 缓冲 器 到 缓冲 器 ( 即 每 条 链 路 ) 或 端 到 端的 信用 。 
当 且 仅 当 接收 机 拥有 可 用 缓冲 区 时 ， 发送 机 才能 确保 其 发 送 帧 。 在 每 条 链 路 流量 控制 (适用 于 交换 网 
So) 的 情况 下 ， 发 送 机 通过 来 自 接收 机 的 原始 信号 ( 即 R_RDY) 的 帮助 来 实现 这 一 目标 。 信 和 号 表示 
接收 机 已 准备 好 使 用 可 用 缓冲 区 来 接收 帧 。 发 送 机 跟踪 可 用 缓冲 区 的 数量 ， 在 发 送 帧 时 将 其 递减 1， 并 
在 接收 到 一 个 R_RDY 时 将 其 递增 1 。 

FC -2M 涉及 端 到 问 连 接 、 寻 址 和 路 径 选 择 。 它 支持 3 种 类 型 的 连接 : 点 对 点 、 交 换 网 和 仲裁 环 。 
点 到 点 拓扑 是 最 简单 的 ， 两 个 端口 之 间 存 在 一 条 直接 链 路 〈 类 似 于 前 面 讨 论 过 的 SAS 端口 ) 。 它 与 直 连 
式 存 储 (DAS) 具有 相同 的 效果 ， 同 时 支持 更 长 的 距离 和 更 高 的 速率 。 

交换 网 拓扑 最 灵活 。 它 包含 了 一 组 与 网 络 相 连 的 端口 ， 该 网 络 通过 单独 的 物理 链 路 实现 了 光纤 信 
道 的 互 连 ， 如 图 6. 22 所 示 。 根 据 域 和 区 域 ， 交 换 网 络 (或 交换 网 ) 采用 了 分 层 结构 和 24 位 地 址 空间 。 
在 交换 网 登录 过 程 〈 稍 后 将 进行 讨论 ) 中 ， 为 每 个 连接 端口 分 配 唯一 的 地 址 。 确 切 的 地 址 通常 取决 于 
交换 网 (更 准确 地 说 ， 是 交换 机 ) 上 用 于 连接 的 物理 端口 。 交 换 网 基于 每 个 帧 头 中 的 目标 端口 地 址 单 
独 路 由 帧 。 

最 后 ， 仲 裁 环 拓扑 在 无 须 交 换 网 的 情况 下 ， 支 持 3 个 或 更 多 个 端口 进行 互 连 。 图 6. 23 给 出 了 一 个 
实例 ， 以 及 采用 能 够 简化 布线 的 集 线 硕 〈 一 种 不 具备 任何 环 路 控制 功能 的 简单 设备 ) 的 另 一 种 方案 。 
在 仲裁 环 上 ， 只 有 两 个 端口 可 以 通过 仲裁 在 任何 给 定时 间 内 进行 相互 通信 。 

在 所 有 3 类 拓扑 中 ， 通 信 既 可 能 是 单 工 的 ， 也 可 能 是 全 双 工 的 ， 还 可 能 是 半 双 工 的 ; 端口 可 能 位 
于 主机 总 线 适 配器 (HBA) 、 存 储 设备 控制 器 、 集 线 器 或 交换 机 上 。 

在 交换 网 拓扑 的 情形 中 ， 可 以 采用 ANSI INCITS 461 - 2010 中 定义 的 交换 网 最 短路 径 优先 (Fabric 
Shortest Path First, FSPF) 协议 来 选择 光纤 信道 上 的 路 径 。FSPF 类 似 于 IP 网 络 中 常用 的 标准 开放 最 短 
路 径 优 先 (Open Shortest Path First, OSPF) 路 由 协议 ， 是 一 种 链 路 状态 路 由 协议 。 

O ”规定 的 循环 元 余 校 验 (CRC) 算法 是 光纤 分 布 式 数据 接口 - 介质 访问 控制 中 指定 的 帧 校 验 序列 (Frame Check Sequence, 

FCS). 
O ”缓冲 区 是 一 种 能 够 保存 单个 帧 的 逻辑 结构 。 
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通过 采用 FSPF 协议 ， 交 换 网 中 的 交换 机 能 够 跟踪 所 有 交换 机 之 间 连 接 的 状态 ， 并 始终 维护 交换 网 
的 最 新 拓扑 。 链 路 状态 信息 包括 与 每 条 链 路 相关 的 成 本 ， 它 与 链 路 速率 成 反比 - 。 基 于 链 路 状态 和 拓扑 
信息 ,每 台 交 换 机 计算 到 其 他 交换 机 的 所 有 可 能 路 径 的 相应 总 成 本 ， 并 选择 成 本 最 低 的 交换 机 。 茶 条 
路 径 的 总 成 本 只 是 其 中 所 有 链 路 的 成 本 之 和 。 图 6. 24 给 出 了 一 个 实例 ， 其 中 交换 机 A 和 交换 机 C 之 间 
的 最 低 成 本 路 径 是 通过 交换 机 B 的 。 

显而易见 ， 选 定 的 路 径 只 对 给 定 拓扑 有 效 。 只 要 拓扑 发 生变 化 ， 交 换 机 就 必须 重新 进行 路 径 计算 。 
也 就 是 说 ， 如 果 取 消 从 交换 机 A 到 交换 机 B 的 链 路 ， 那么 路 径 重 新 计算 将 产生 两 条 成 本 相同 的 路 径 。 
在 这 种 情况 下 ， 需 要 一 台 断 路 器 ， 主 要 是 出 于 负载 均衡 方面 的 考虑 。 

FC -2V 涉及 服务 等 级 、 端 到 端 流量 控制 、 命 名 方案 以 及 支持 上 层 协 议 的 分 段 和 重组 等 。 在 编写 本 
书 时 ， 它 支持 3 个 服务 等 级 ,分 别 是 确认 帧 传输 (第 2 级 ) 、 非 确认 帧 传输 (第 3 级 ) 和 交换 机 间 帧 传 
fi (第 FF 级 )。 第 2 级 和 第 3 级 都 是 数据 报 服 务 。 帧 在 无 须 任 何 传输 次 序 保证 的 情况 下 ， 通 过 交换 网 分 
别 进行 路 由 。 第 2 级 支持 发 送 帧 传输 状态 的 通知 消息 ， 而 第 3 级 则 不 支持 这 一 功能 。 

传输 确认 支持 端 到 端的 流量 控制 ， 并 能 改进 差错 处 理 。 端 到 端 流 量 控 制 也 是 基于 信用 的 ， 由 通信 


12 
© 根据 ANSIINCITS 461 -2010， 链 路 成 本 = Sx ( ree). 其 中 5 是 强制 定义 的 因子 。 默 认 情况 下 ， 将 8 设置 为 1.0。 
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端口 在 登录 时 进行 协商 。 当 传输 确认 数 显著 超过 协商 的 信用 值 时 ， 发 送 端 可 能 不 会 再 发 送 帧 。 需 要 注 
意 的 是 ， 传 输 确 认 在 帧 级 〈 通 过 ACK_1 W) 完成 ， 且 开销 比 在 原始 信和 号 级 完成 的 确认 更 大 。 





命名 机 制 类 似 于 光纤 信道 (FC) 中 的 寻 址 机 制 。 目 前 ， 人 们 已 经 提出 了 和 若干 种 用 于 识别 端口 、 m 
点 《如 存储 设备 和 主机 总 线 适 配器 ) 、 交 换 网 和 其 他 光纤 信道 实体 的 方案 。 在 实践 中 ，64 位 全 球 唯一 
名 字 (World Wide Name, WWN) 就 是 一 种 实现 方案 。WWN 类 似 于 MAC (Medium Access Control ， 介 
质 访问 控制 ) 地 址 ， 它 们 是 由 IEEE (Institute of Electrical and Electronics Engineers ， 电 气 和 电子 工程 师 
协会 ) 以 相同 的 方式 进行 管理 的 。 全 球 唯 一 名 字 由 制造 商 分 配给 光纤 信道 实体 。 

从 各 方面 考虑 ， 全 球 唯 一 名 字 可 以 为 光纤 信道 路 由 提供 基本 依据 。 但 是 ， 如 前 所 述 ， 光 纤 信 道路 
由 基于 一 种 特殊 的 24 位 端口 地 址 。 出 现 这 种 情况 的 原因 是 担心 WWN 地 址 越 长 ， 会 导致 光纤 信道 路 由 
太 慢 而 无 法 实现 整体 性 能 目标 。 

因此 ， 闯 口 以 两 个 标识 符 作 为 结束 。 在 FC 语法 中 ， 地 址 标识 符 的 长 度 是 24 位 ; 名 称 标识 符 的 长 
度 是 64 位 。 它 们 的 用 途 不 尽 相 同 。 名 称 标识 符 在 诸如 分 区 等 服务 中 非常 有 用 。 基 于 其 名 称 标识 符 ， 可 
以 将 FC 设备 分 组 为 多 个 隔离 区 ， 这 样 跨 隔离 区 的 设备 不 能 相互 查看 和 通信 。 ie Seg 
符 ， 但 要 对 其 进行 管理 比较 困难 。 与 名 称 标识 符 不 同 ， 当 设备 对 交换 网 上 的 连接 端口 进行 更 改 时 ， 
址 标 误 符 容 易 随 之 发 生 更 改 。 从 安全 角度 来 看 ,根据地 址 标识 符 进 和 ERETTE 
件 好 事 。 

FC -3 涉及 为 FC -4 提供 的 链 路 服务 ， 用 于 管理 FC 设备 之 间 的 通信 以 及 交换 网 与 连接 设备 之 间 的 
交互 。FC -3 提供 了 一 种 链 路 服务 ， 可 以 将 其 进一步 细 分 为 基本 服务 和 扩展 服务 。 

基本 链 路 服务 集 非常 小 ， 它 则 在 支持 中 止 某 个 序列 (该 序列 是 由 单个 上 层 协 议 数 据 单元 分 片 引 起 
的 帧 流量 ) ， 并 将 结果 通知 给 服务 请 求 方 ( 即 请 求 完 成 或 拒绝 ) 。 

相 比 之 下 ， 扩 展 链 路 服务 集 要 大 得 多 。 特 别 是 它 支 持 登 录 和 注销 过 程 。 

登录 过 程 是 强制 性 的 。 它 由 两 个 步骤 构成 : 交换 网 登录 和 端口 登录 。FC 设备 上 的 端口 必须 首先 完 
成 交换 网 登录 步 又， 然后 再 尝试 执行 其 他 操作 。 该 步骤 涉及 将 包含 交换 网 登录 命令 和 其 他 信息 的 帧 发 
送 给 已 知 的 端口 地 址 。 如 果 该 步骤 成 功 完 成 ， 则 设备 端口 会 发 现 拓扑 类 型 ( 如 交换 网 或 点 对 点 ) ， 此 时 
将 为 设备 端口 分 配 一 个 地 址 (如果 交换 网 存在 ) 。 该 过 程 的 其 余部 分 需要 处 理 一 些 服务 参数 (如 支持 的 
服务 等 级 和 每 条 链 路 流量 控制 的 信用 值 ) 。 然 后 ， 完 成 端口 登录 步骤 ， 主 要 是 处 理 其 他 服务 参数 值 (如 
端口 名 称 和 端 到 端 流 控制 的 信用 值 ) 。 

登录 过 程 会 寻 致 会 话 时 间 过 长 。 只 要 会 话 处 于 激活 状态 ， 则 需要 在 两 个 端口 之 间 执 行 VO 操作 。 
否则 ， 必 须 建 立 一 次 新 的 登录 会 话 。 

注销 过 程 只 是 终止 登录 会 话 ， 并 释放 其 占用 的 资源 。 尽 管 “登录 ”一 词 给 人 以 需要 进行 身份 验证 
的 错觉 ， 可 是 登录 过 程 却 不 拥有 内 置身 份 验证 功能 。 传 统 上 ，FcC 设备 是 可 信任 的 。 
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最 高 层 FC -4 涉及 桥接 下 面 的 传输 层 以 及 上 面 的 应 用 层 ， 使 得 FC 设备 能 够 以 透明 的 方式 来 访问 应 
用 。 例 如 ，SCSI 感知 应 用 可 以 访问 FC 设备 而 不 需要 进行 任何 修改 。 为 此 ，FC -4 定义 了 应 用 协议 和 底 
层 FC 结构 之 间 的 映射 。 该 映射 与 特定 应 用 协议 有 关 。 目 前 ， 人 们 已 经 定义 了 一 组 与 特定 应 用 有 关 的 映 
射 ， 特 别 是 SCSI 的 光纤 通道 协议 (FCP), IEAn SCSI 架构 模型 中 所 定义 的 (前 面 已 经 进行 了 讨论 )， 
FCP 能 够 提供 传输 协议 服务 。 举 几 个 例子 , 它 涉及 与 SCSI 操作 (如 CDB)、 地 址 映射 和 能 力 发 现 有 关 
的 信息 封装 。 通 过 FCP，FC 存储 设备 可 以 作为 应 用 的 SCSI 设备 出 现 。 

已 经 定义 的 其 他 映射 还 包括 虚拟 接口 (Virtual Interface, VI) 架构 的 FC 虚拟 接口 (FCVI) 握 :和 
IPv4/IPv6 的 RFC 4338。 虚 拟 接口 架构 旨 在 提供 拥有 高 性 能 需求 的 进程 。 在 不 涉及 特定 操作 系统 服务 的 
情况 下 ， 它 需要 一 种 受 保护 的 、 可 直接 访问 的 网 络 硬 件 接口 。 除 了 传统 的 发 送 和 接收 消息 传递 结构 ， 
它 还 支持 远程 直接 内 存 访问 (Remote Direct Memory Access，RDMA ) 。 人 们 已 经 将 RDMA 应 用 于 分 布 式 
科学 领域 ， 并 证 明 它 是 有 效 的 。 然 而 ， 实 践 中 使 用 的 版 本 与 VI 架构 中 的 RDMA 不 同 。InfiniBand” 是 一 
个 显著 的 例子 。 根 据 云 计算 ,在 虚拟 机 中 设计 支持 RDMA 的 有 效 机 制 是 当前 的 研究 热点 。 





6.2.4 SAN 和 以 太 网 的 融合 *** 


光纤 信道 (FC) 存储 区 域 网 络 (SAN) 因 具 有 卓越 性 能 而 在 数据 中 心得 到 广泛 应 用 。 但 是 ， 需 要 
为 存储 部 署 和 管理 单独 的 定制 网 络 是 一 大 缺点 。 这 样 做 需要 采购 专门 的 硬件 〈 即 定制 的 HBA、 连 接 器 、 
电缆 和 开关 ) 以 及 专门 操作 人 员 的 参与 。 存 储 区 域 网 络 和 以 太 网 的 融合 主要 研究 如 何 将 以 太 网 应 用 于 
所 有 类 型 的 流量 (包括 存储 ) 。 关 键 的 动机 是 它 拥有 降低 资本 和 运营 支出 的 前 景 。 

读者 可 能 记得 在 第 2 FP, IT 转型 和 网 络 功 能 虚拟 化 也 是 同样 的 动机 。* 

SAN 的 分 层 结 构 有 助 于 实现 如 图 6. 25 所 示 的 融合 方法 。 这 些 方法 对 应 于 FC 协议 底层 模块 的 交换 。 
在 极端 方法 〈 即 方法 3) 中 ,已 经 没有 任何 FC 的 踪影 ”。 
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IP 
IEEE 802.3 
MAC 
IEEE 802.3 
PHY 
方法 3 

























| ~ 2 oe ow ees i E a i A | pe > i #3 | ay SS MRA "i i 2 F vy : K ‘ ~ 5- y ie wt E e ee ee Me ae mS wt RA el ei + nee al 
SN e y ‘ ` re X 
对 光纤 信道 (FC) 来 说 ,由 INCITS T1 技术 委员 会 开发 的 另 两 种 方法 更 为 实用 一 些 。 这 个 想法 是 


保持 各 种 模块 来 帮助 过 渡 到 新 的 部 署 。3 种 方法 的 共同 之 处 在 于 使 用 正 EE 802.3 MAC 层 和 物理 层 来 代 
替 FC-1 和 FEFC-0。 方法 1 进一步 要 求 使 用 FCoE 层 来 替换 FC -2M 和 FC -2P, 方法 2 使 用 TCP/IP 及 
其 上 面 的 FCIP 来 替代 FC -2P、FC -2M、FC -2V 和 FC -3, 方法 3 (HH TCP/IP 及 其 上 面 的 iSCSI 替换 
FC -2P、FC -2M、FC -2V、FC -3 和 FCP。 本 节 的 其 余部 分 重点 关注 两 种 主要 的 融合 方法 一 一 方法 1 
(FCoE) 和 方法 3 (iSCSI)。 

光纤 信道 (FC) 的 主要 特点 是 它 不 会 因 缓冲 区 拥塞 而 导致 帧 丢失 。 方 法 1 依赖 于 无 损 的 以 太 网 链 


日 ”这 就 解释 了 为 什么 是 由 TF (而 不 是 由 INCITS T 技术 委员 会 ) 来 负责 相关 标准 。 








路 来 保持 此 特性 。 为 此 ， 以 太 网 的 暂停 机 制 是 至 关 重 要 的 。 该 机 制 支持 处 于 拥塞 状态 的 以 太 网 交换 机 
请 求 相 邻 交 换 机 (通过 暂停 帧 ) 在 特定 持续 时 间 内 不 发 送 帧 。 如 果 拥 塞 持续 时 间 超 出 请 求 的 有 效 期 限 ， 
则 交换 机 可 以 发 送 一 条 新 的 暂停 请 求 。 相 反 ， 如 果 拥 塞 早 于 预期 得 到 缓解 ， 则 交换 机 可 以 通过 发 送 一 
条 持续 时 间 设 置 为 0 的 新 暂停 请 求 来 取消 未 完成 的 请 求 。 和 暂停 机 制 是 基于 每 条 链 路 开展 工作 的 。 其 调 
用 是 由 每 台 交换 机 基于 本 地 负载 条 件 独 立 进 行 处 理 的 。 此 外 ,， 一旦 调 用， 暂停 机 制 适用 于 同一 链 路 上 
的 所 有 流量 。 

当 不 同类 型 的 流量 共享 融合 网 络 时 ， 和 暂停 机 制 的 工作 效果 不 够 理想 。 即 使 暂停 是 由 与 存储 无 关 的 
流量 引起 的 ， 存 储 性 能 也 将 受到 影响 。 

幸运 的 是 ， 存 在 着 一 种 补救 措施 ， 这 就 是 IEEE 802. 1Qbb 中 规定 的 基于 优先 级 的 流量 控制 
(Priority - based Flow Control, PFC) 机 制 。PFC 机 制 支持 将 暂停 机 制 单独 应 用 于 不 同 优先 级 的 流量 。 流 
量 优先 级 划分 是 通过 IEEE 802. 1Q 中 定义 的 3 位 标签 来 实现 的 。 通 过 更 为 精细 的 控制 粒度 ， 不 同等 级 
的 流量 (由 于 受到 标签 长 度 限制 ， 因 而 最 多 8 个 等 级 ) 不 会 产生 相互 和 干扰。 同时， 暂停 非 存储 流量 以 
支持 存储 流量 通过 并 协助 满足 存储 性 能 要 求 也 是 可 以 实现 的 。 

除了 无 损 以 太 网 之 外 ,方法 1 需要 一 个 新 层 ， 即 光纤 信道 - 主干 5 (FC -BB-5)° 规范 中 定义 的 以 
太 网 光纤 信道 (FCoE) FCoE 的 任务 是 弥补 采用 以 太 网 来 传输 而 导致 的 缺陷 ， 如 FC 帧 封装 、 模 拟 点 
对 点 链 路 和 访问 常见 服务 。FCoEk 帧 是 一 种 将 FC 帧 作为 整体 进行 封装 而 不 做 任何 改变 的 以 太 网 帧 。 保 
持 FC 帧 的 完整 性 能 够 简化 FCoE 和 现 有 FC SAN 的 集成 。 如 图 6. 26 所 示 ， 封 装 后 的 FC 帧 具有 相对 较 低 
的 开销 ， 只 是 增加 了 用 于 标记 帧 开始 和 结束 以 及 用 于 填充 以 满足 最 小 以 太 网 帧 尺寸 要 求 的 分 隔 符 。 
FCoE 帧 可 以 通过 特殊 的 Ethertype (以 太 网 类 型 ) 值 来 与 其 他 类 型 的 帧 进行 区 分 。Ethertype 是 以 太 网 帧 
中 的 一 个 两 字 节 报头 字段 ， 用 于 表示 有 效 载 荷 的 性 质 。Ethertype 值 决定 了 接收 端 对 接收 帧 进行 何 种 处 
理 。IPv4 和 IPv6 是 普通 的 Ethertype 值 。 为 避免 冲突 ，Ethertype 值 是 由 IEEE 注册 管理 机 构 进 行 管理 的 。 


FCoE PDU 
(封装 的 FC 帧 ) 


MAC 地 址 FCoE PDU 开 始 FCoE PDU 结 束 


802.1Q 标 签 ， 分 隔 符 ， 填 充 分 隔 符 ， 填 充 
Ethertype 





可 以 将 FCoE 感知 实体 分 为 FCoE 节点 (FCoE Node, 
FCF) 。 前 者 相对 简单 ， 实 际 上 被 称 为 将 FC HBA 和 以 太 网 NIC (Network Interface Card， 网 络 接口 卡 ) 
合 为 一 体 的 融合 网 络 适 配器 。 以 太 网 NIC 本 质 上 是 以 太 网 中 的 FC 交换 机 ， 它 支持 节点 和 FC 交换 功能 ， 
其 中 心 任 务 是 转发 FCoE 帧 。 对 于 接收 到 的 每 一 帧 ，FCoE 转发 器 均 对 FC 帧 进行 解 封装 ， 并 根据 FC 帧 


© Bl IEEE 802. 3 -2008 标准 附件 31B。 

© Bl ANSI INCITS 462 -2010。 该 规范 还 定义 了 用 于 支持 不 同类 型 骨干 网 上 的 光纤 信道 的 机 制 ， 包 括 TCP/IP SONET/SO- 
NET (Synchronous Optical Network ， 同 步 光纤 网 络 ) /SDH (Synchronous Digital Hierarchy， 同 步 数 字 系 列 ) /OTN (Optical 
Transport Network, ， 光 传输 网 )/PDH (Plesiochronous Digital Hierarchy， 准 同步 数字 系列 ) 和 MPLS (Multi - Protocol Label 
Switching， 多 协议 标签 交换 ) 。 


150 


第 6 章 。 现 代数 据 中 心 的 云 存 储 与 结构 『@\ 





中 的 目标 地 址 来 确定 转发 MAC 地 址 。 然 后 ，FCoE 转发 器 必须 以 适合 以 太 网 端口 转发 的 方式 再 次 对 FC 
帧 进行 封装 ， 将 以 太 网 源 地 址 设置 为 FCoE 转发 器 MAC 地 址 ， 而 将 以 太 网 目的 地 址 设置 为 转发 MAC 地 
址 。 如 果 FCF 还 支持 本 地 FC 端口 〈 因 而 是 SAN 网 关 功 能 ) ， 则 可 能 不 需要 重新 进行 封装 。FCoE 转发 器 
可 以 将 FC SAN 绑 定 的 FC 帧 转发 到 本 地 FC 端口 。 

为 了 在 以 太 网 共享 介质 上 模拟 点 对 点 链 路 ，FCoE 需要 依赖 于 虚拟 端口 和 链 路 的 逻辑 结构 。 

虚拟 端口 模拟 FC 端口 。 这 些 端 口 通常 是 在 FCoE 节点 和 了 CoE 转发 器 上 动态 创建 的 。 每 个 虚拟 端口 
均 与 某 个 元 素 PRA FCoE 链 路 终点 (FCoE_LEP) ] 相关 联 ， 该 元 素 用 于 处 理 封 装 和 解 封 装 ， 并 处 理 以 
太 网 传输 问题 。 两 个 虚拟 点 可 以 通过 至 少 由 相关 FCoE_LEP 的 MAC 地 址 标识 的 虚拟 链 路 进行 互 连 。 该 
链 路 可 用 作 在 以 太 网 网 络 上 两 个 MAC 地 址 之 间 传 输 封 装 FC 帧 的 隧道 。 图 6. 27 给 出 了 FCoE 概念 性 网 
络 中 的 虚拟 端口 和 链 路 。 为 了 简单 起 见 ， 没 有 显示 FCoFE_LEP。 由 图 6. 27 可 见 : 


FCoE $i A ai 


FCoE 节 点 





PH WTS- I 图 6.27 FCoE 概念 性 架构 wer 5 i 
1) FCoE 节点 可 以 通过 单个 以 太 网 端口 与 不 同 的 FCok FE RAEM AR E MIER 

2) FCoE 转发 器 可 以 通过 单个 以 太 网 端口 与 不 同 的 FCoE 节点 建立 多 条 虚拟 链 路 。 

3) FCoE 转发 需 可 以 通过 单个 以 太 网 端口 与 不 同 的 FCoE 转发 器 建立 多 条 虚拟 链 路 。 

4) FCoE 市 点 可 以 通过 单个 以 太 网 站 口 与 不 同 的 FCok 节点 建立 多 条 虚拟 链 路 。 

现在 ， 可 以 解释 如 何 发 现 FCoE 实体 和 虚拟 端口 ， 以 及 如 何 建 立 虚 拟 链 路 了 o 

在 光纤 信道 (FC) 中 ,终端 设备 与 交换 机 之 间 配 置 直接 物理 链 路 。 例 如 ， 为 了 执行 交换 网 登录 ， 
设备 只 需 通 过 链 路 回 对 应 的 已 知 端口 地 址 发 送 请 求 。 在 FCoE HH, FCoE 节点 和 FCoEk 转发 器 之 间 不 存在 
直接 物理 链 路 。 相 反 ， 存 在 着 中 间 以 太 网 链 路 和 交换 机 。 为 执行 交换 网 登录 ， 末端 节点 必须 首先 建立 
一 条 适当 的 虚拟 链 路 。 如 果 这 是 手动 完成 的 ， 则 该 过 程 效 率 低下 且 容 易 出 错 。 

AJE, FCoE 初始 化 协议 (FCoE Initialization Protocol, FIP) 应 运 而 生 。 以 太 网 帧 中 包含 有 FIP 消 
息 。 特 丈 的 Ethertype 值 能 够 将 这 些 帧 与 FCoE 帧 区 分 开 来 。 

FCoE 初始 化 协议 涉及 FCoE 实体 发 现 、 虚 拟 链 路 实例 化 和 虚拟 链 路 维护 。 图 6. 28 显示 了 FCoE 节 
KAA FCoE 转发 希 之 间 的 交互 (PA FCoE 节点 或 两 个 FCoE 转发 器 的 交互 与 其 类 似 ) 。 实 体 发 现 过 程 通 
常 依托 FCoE 转发 句 将 组 播发 现 通告 定期 发 送 到 已 知 组 播 地 址 。 

FCoE 节点 根据 通告 选择 一 种 兼容 的 FCoE 转发 器 ， 并 在 能 力 协 商 启 动 时 发 送 一 条 发 现 请 求 。 收 到 
请 求 后 ，FCoE 转发 器 使 用 请 求 发 现 通告 来 啊 应 FCoE 节点， 来 确认 协商 后 的 能 力 。 

一 旦 收 到 请 求 发 现 通告 ，FCoE 节点 可 以 继续 建立 到 FCoE 转发 器 的 虚拟 链 路 。 该 过 程 类 似 于 光纤 
信道 中 的 交换 网 登录 过 程 。 
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FCoE 节 点 FCoE 转 发 需 


发 现 通告 


交换 网 登录 请 求 


交换 网 登录 成 功 





转发 器 之 间 会 生成 一 条 虚拟 链 路 。 

通常 情况 下 ，FCoEk 节点 上 虚拟 端口 的 MAC 地 址 是 由 FCoE 转发 器 分 配 的 ， 虽 然 MAC 地 址 也 可 以 
H FCoE 市 点 分 配 。 在 前 一 种 情况 下 ,将 MAC 地 址 称 为 交换 网 提供 的 MAC 地 址 (Fabric - Providing 
MAC Address，FPMA ) 。 它 是 通过 将 FCoE 转发 器 的 24 位 MAC 前 级 和 由 FCoE 转发 器 分 配 的 虚拟 端口 的 
24 位 地 址 标识 符 进行 级 联 得 到 的 。 这 种 方法 可 以 确保 交换 网 内 的 MAC 地 址 是 唯一 的 。 虚 拟 端 口 和 链 路 
可 以 通过 注销 过 程 显 式 删 除 。 该 过 程 成 功 完 成 后 ， 则 可 以 释放 所 有 相关 资源 ， 包 括 MAC 地 址 和 虚拟 端 
口 地 址 标识 符 。 

虚拟 链 路 可 能 会 跨 一 系列 以 太 网 链 路 和 交换 机 。 因 此 ， 对 于 相关 FCoE 实体 而 言 ， 因 中 间 链 路 或 交 
换 机 故障 而 导致 的 链 路 断 开 可 能 并 非 一 目 了 然 。FCoE 初始 化 协议 通过 使 相关 实体 定期 检查 虚拟 链 路 的 
状态 来 解决 该 问题 。FCoE 市 点 通过 监视 组 播发 现 通 告 并 向 FCoE 转发 右 发 送 保持 激活 消息 来 解决 这 一 
问题 ， 而 FCoE 转发 希 则 通过 监视 来 目 FCoE 节点 的 保持 激活 消息 来 解决 这 一 问题 (除了 正在 进行 的 发 
布 组 播发 现 通告 任务 之 外 )。 

如 果 FCoE 节点 记录 到 两 条 通告 丢失 ， 则 认为 FCoEk 转发 硕 上 的 虚拟 端口 是 不 可 达 的 。 在 这 种 情况 
F, FCoE 市 点 将 删除 相关 虚拟 端口 和 链 路 。 类 似 地 ， 如 果 FCoE 转发 器 记录 到 两 条 保持 激活 的 消息 丢 
AE, MUA FCoE 节点 上 的 虚拟 端口 是 不 可 达 的 。 在 这 种 情况 下 ，FCoE 转发 器 将 删除 相关 虚拟 端口 和 
链 路 。 

为 了 更 好 地 进行 测量 ，FCoE 服务 一 般 通 过 VLAN (Virtual Local Area Network ， 虚 拟 局 域 网 ) 提供 ， 
以 便 存 储 的 流量 被 正确 隅 离 。 这 些 VLAN 可 能 是 预先 配置 的 ， 但 如 果 不 是 这 样 ， 则 需要 一 种 能 够 发 现 
它们 的 机 制 。 为 此 ，FIP 包括 一 个 在 任何 事件 之 前 FCoE 实体 可 以 执行 的 附加 过 程 。VLAN 发 现 过 程 非 
TfL, FCoE 节点 (或 FCoE 转发 器 ) 将 VLAN 发 现 消息 发 送 到 预 设 的 组 播 地 址 上 。 接 收 消 息 的 FCoE 
He Be air (EA FCoE 支持 的 VLAN 标识 符 列表 来 响应 FCoE 节点 。 

iSCSI 是 由 伴随 互联 网 发 展 而 产生 的 泛 在 连通 性 支持 的 一 种 开发 活动 。 如 图 6.25 所 示 ， 这 里 某 些 对 
SCSI 操作 至 关 重 要 的 功能 (如 可 靠 的 依次 传送 、 未 确认 数据 包 的 自动 重 传 和 拥塞 控制 ) 用 到 了 TCP 
(Transfer Control Protocol, ， 传 输 控 制 协议 )2 。 

最 初 ， 存 在 着 一 种 对 潜在 性 能 问题 的 担忧 ， 但 TCP 的 选择 于 20 世纪 90 年 代 被 南 加 州 大 学 信息 科 
学 研究 所 在 虚拟 互联 网 SCSI 适配器 (VISA) 项 目 ” 中 进行 了 验证 。 该 项 目 表明 ，TCP/IP 开销 并 不 像 


O EX SCSI 操作 所 必需 的 特征 方面 ， 流 控制 传输 协议 (Stream Control Transmission Protocol, SCTP) 与 TCP 类 似 。 然 而 ， 
在 iSCSI 进行 标准 化 时 ， 通常 SCTP 认为 太 新 、 不 可 靠 。 
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PFA ABA, FLAT VAs aE A He E GR A eb a ET Ae. Bia, IETF 对 相关 标准 化 工作 展 
开 了 讨论 ， 并 于 2000 年 第 四 季度 成 立 了 卫 存储 工作 组 。 这 一 努力 促使 了 一 系列 RFC (Request For Com- 
ments, RKM) 的 出 版 ， 从 2004 EPER iSCSI 协议 的 核心 RFC 开始 。 位 于 以 色 列 海 法 市 的 IBM 研究 
实验 室 的 K. Meth Ail J. Satron 撰写 的 论文 ”对 iSCSI 协议 的 设计 做 了 很 好 的 解释 。 

为 了 解释 iSCSI 的 工作 原理 ， 先 来 回顾 一 下 图 6. 29 中 的 概念 模型 。 这 里 的 中 心 结构 是 代表 iSCSI 通 
信 端 点 (启动 器 或 目标 ) 的 iSCSI 节点 。 该 节点 可 以 通过 一 个 或 多 个 网 络 门户 从 IP 网 络 进行 访问 。 


IP 主 机 
(如 存储 设备 ) 


IP 主 机 
(如 Web 服 务 器 ) 


iSCSI 节点 站] 个 
(启动 器 ) 





节点 由 全 局 唯一 一 的 iSCSI 名 称 来 标识 ， 而 iSCSI 名 称 既 不 依赖 于 节点 位 置 ， 又 不 依赖 于 IP 地 址 。 在 
同一 地 址 处 ， 可 能 存在 着 多 个 可 达 的 iSCSI 节点 ， 且 可 以 在 多 个 地 址 处 到 达 同 一 iSCSI 节点 。 因 此 ， 在 
一 对 iSCSI 节点 之 间 的 通信 会 话 中 使 用 多 个 TOP 连接 ， 以 实现 更 高 的 吞吐 量 ， 这 是 完全 可 行 的。 

稍 后 会 回 到 这 一 重要 问题 。 图 6. 30 给 出 了 针对 iSCSI 名 称 定义 的 两 种 格式 : SCSI 限定 名 (ign) 
和 可 扩展 唯一 标识 符 (eui)。 使 用 iqn 格式 ， 任 何 拥有 域名 的 组 织 都 可 以 发 布 这 些 名 称 。 相 比 之 下 ，eui 
格式 中 的 名 称 由 IEEE 注册 中 心 (Registration Authority, RA) 分 配 。 


命名 机 构 iSCSI 限 定名 
字符 串 常 量 (域名 的 反 转 写法 ) 


iqn.2015-04.com. example:storage:diskarrays-us-07974063 
| SE: ; 1 O] 


日 期 由 example.com 定 义 的 字符 串 


EUI-64 标 识 符 


eui.02601D1234C5678D 


字符 串 常量 可 扩展 唯一 标识 符 





EG A IET SSCL PDN Bal Dora Drie, WIUIE) DER. FATA A 
需 的 。 此 域 包 含有 诸如 iSCSI PDU 类 型 和 SCSI CDB 等 关键 信息 。 
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可 选项 


UER FUR T Me Aye TP = SESE | ace Cota ake ea esa Gera aE E eR 





有 标签 摘要 的 两 个 可 选 域 包含 用 于 检测 报头 和 数据 变化 〈 如 由 噪声 引起 的 变化 ) 的 校 验 和 。 为 
了 降低 处 理 成 本 ， 基 本 报头 长 度 是 固定 的 〈48 字 节 ) ， 以 容纳 标准 的 SCSI CDB。 在 CDB 较 大 的 情况 
下 ， 需 要 用 到 附加 报头 分 段 。 

iSCSI PDU 类 型 标识 了 PDU 的 关键 功能 ， 且 人 们 已 定义 了 知 干 种 PDU 类 型 。 当 然 ， 一 些 PDU 类 型 
在 SCSI 中 有 直接 对 应 物 ， 如 SCSI Ar. SCSI may, SCSI 数据 输入 和 SCSI 数据 输出 。 人 们 引入 那些 在 
SCSI 中 没有 直接 对 应 物 的 PDU 类 型 ， 来 为 底层 的 TCP/IP 提供 必要 的 适 配 功能 。 这 些 PDU 类 型 包括 用 

于 支持 连接 管理 和 能 力 协商 的 登录 请 求 、 登 录 响 应 、 注 销 请 求 和 注销 响应 ， 以 及 用 于 文 持 目标 驱动 流 
量 控制 的 准备 传输 (Ready to Transfer, R2T) 。 

为 了 说 明 不 同类 型 iSCSI PDU 的 作用 ， 图 6. 32 描述 了 一 个 写 操作 的 信息 流 实 例 。 


iSCSI 启动 器 iSCSI 目标 






è; 


SCSI 命 令 ( 写 入 ) 


创建 命令 队列 
SCSI 数 据 输 出 
接收 和 缓存 


| 主动 提供 的 数据 


R2T( 偏 移 ， 数 据 长 度 )#] 准备 处 理 数据 ， 


请 求 剩 余数 据 
SCSI 数 据 输出 


Es 

i ee 
R2T( 偏 移 ， 数 据 长 度 )#2 

ae | | 


EA #] 
| R2T( 偏 移 ， 数 据 长 度 )#3 
DA 


| SCSI RH far 4 #2 


SCSI 数 据 输出 #3 








每 个 SCSI 命令 协议 数据 单元 (PDU) 必须 拥有 一 个 匹配 响应 PDU， 用 于 表明 命令 是 否 成 功 执行 。 
在 发 出 SCSI 啊 应 之 前 ， 可 能 需要 在 局 动 右 和 目标 之 间 进 行 数据 传输 。 此 传输 由 SCSI 数据 输入 和 SCSI 
数据 输出 PDU 负责 执行 。 在 该 实例 中 ， 启动 器 在 写 人 命令 之 后 ， 将 预期 数据 发 送 给 几 个 SCSI 数据 输出 
PDU 中 的 目标 ， 直 到 达到 预先 协商 的 非 请 求 数据 上 限 为 止 ” 。 随 后 ， 启 动 者 仅 在 目标 请 求 时 发 送 任何 其 
他 内 容 。 

R2T PDU 通知 局 动 右 哪 部 分 数据 需要 发 送 。 目 标 直 接 发 送 R2T PDU， 而 不 需要 等 待 针 对 旧 R2T 
PDU 的 啊 应 。 在 接收 到 R2T PDU 之 后 ， 局 动 需 发 送 SCSI 数据 输出 PDU 中 所 请 求 的 数据 。 目 标 驱动 方 
案 文 持 基 于 目标 负载 和 配置 进行 局 部 优化 。 但 是 这 种 方案 是 以 传输 额外 R2T PDU 为 代价 的 ， 当 数据 量 
小 、 网 络 时 延长 时 ， 这 种 方案 可 能 会 变 得 不 可 接受 。 这 就 是 为 什么 iSCSI 支持 启动 器 在 未 请 求 的 情况 下 
将 数据 传输 到 目标 ， 正 如 前 面 流程 中 所 描述 的 那样 。 也 可 以 采用 另 一 种 称 为 实时 数据 的 更 为 高 效 的 方 


O ”在读 操 作 的 情形 中 ， 目 标 在 收 到 读 取 命令 之 后 ， 将 所 请 求 的 数据 发 送 给 一 个 或 多 个 SCSI 数据 输入 PDU 中 的 启动 器 。 
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案 ， 它 文 持 数据 作为 SCSI 命令 PDU 的 一 部 分 进行 发 送 。 在 启动 融和 目标 之 间 建 立 TCP 连接 之 后 发 生 的 
登录 过 程 中 ， 需 要 对 非 请 求 数据 的 最 大 数量 进行 协商 。 稍 后 将 讨论 登录 过 程 。 

(FA TCP/IP 作为 传输 协议 存在 的 一 个 问题 是 底层 物理 介质 未 得 到 充分 利用 。 作 为 补救 措施 ， 引 入 
T iSCSI 会 话 的 概念 。iSCSI 会 话 是 一 组 用 于 在 启动 占 和 目标 建立 链 路 的 TCP 连接 。TCP 连接 数 可 能 会 
随 着 时 间 的 推移 而 增加 和 减 小 ， 从 而 支持 聚合 多 个 TCP 连接 以 实现 更 高 的 否 吐 量 。 

当 多 个 连接 可 用 时 ， 会 出 现在 执行 YO 的 上 下 文中 正确 使 用 多 个 连接 的 问题 。 当 然 ， 使 用 单独 连 
接 进 行 控制 和 数据 传输 以 确保 连接 始终 可 用 于 任务 管理 是 合理 的 。 然 而 ， 这 种 方案 需要 路 多 个 连接 进 
行 监视 和 协调 ， 甚 至 需要 在 司 动 器 或 目标 上 安装 不 同 的 适配器 。 

为 了 避免 这 种 复杂 性 ，iSCSI 采 用 了 一 种 称 为 连接 效用 的 方案 。 采 用 此 方案 ， 局 动 历 可 以 使 用 任何 
连接 来 发 布 命令 ， 但 必须 坚持 使 用 同一 连接 来 完成 所 有 后 续 通 信 。 

需要 对 iSCSI 会 话 进行 管理 。 会 话 管理 的 很 大 一 部 分 是 由 iSCSI 登录 过 程 来 处 理 的 。 登 录 过 程 的 成 
功 完成 会 导致 新 会 话 或 添加 连接 到 现 有 会 话 中 。 

该 过 程 的 先决 条 件 是 启动 器 要 知道 所 用 存储 设备 〈 即 目标 ) 的 名 称 和 地 址 。 一 种 方法 是 在 局 动 右 
中 预先 配置 此 类 信息 。 然 后 ， 发 生 任何 改变 都 需要 重新 进行 配置 。 

男 一 种 方法 是 基于 服务 定位 协议 。 它 支持 启动 器 动 态 发 现 可 用 目标 。 为 局 动 登录 过 程 ， 启动 器 首 
先 建立 一 条 到 目标 上 已 知 TCP 端口 ”的 连接 。 一 旦 连接 建立 ， 启动 器 将 通过 登录 请 求 和 登录 响应 PDU 
来 执行 登录 步骤 。 相 互 认证 可 以 通过 协商 的 认证 方法 进行 ,并 将 挑战 -握手 认证 协议 (Challenge Hand- 
shake Authentication Protocol, CHAP) 作为 默认 认证 方法 。 至 少 操作 参数 是 可 协商 的 ， 其 中 包括 非 请 求 
数据 的 最 大 数量 、SCSI 数据 输入 PDU 的 最 大 尺寸 ， 以 及 在 PDU 中 是 否 包 含 循环 元 余 校 验 和 以 进行 误差 
保护 。 当 一 切 顺 利 时 ， 目 标 发 送 一 个 登录 响应 PDU， 表 示 登 录 过 程 已 成 功 完成 。 只 有 这 样 ， 与 会 话 关 
联 的 新 连接 才能 用 于 SCSI 通信 。 

跨 多 个 TCP 连接 的 有 效 负载 分 布 和 错误 恢复 也 是 会 话 管理 的 一 部 分 。iSCSI 支持 用 于 错误 恢复 的 3 
级 层次 结构 ， 其 复 林 性 明显 增加 。 

底层 是 会 话 恢复 ， 它 再 次 重 构 一 次 无 效 会 话 。 这 涉及 清理 所 有 相关 工件 〈 如 关闭 所 有 TCP 连接 并 
中 止 所 有 具备 错误 指示 功能 的 、 即 将 执行 的 SCSI 命令 ) ， 然 后 重新 建立 一 组 新 的 TCP 连接 。 

第 二 层 是 摘要 故障 恢复 ， 除 了 会 话 恢 复 之 外 ， 该 层 支 持 具有 不 匹配 数据 摘要 的 PDU BW dr aR E 
新 发 送 PDU, 

最 后 ， 连 接 恢 复 包括 摘要 故障 恢复 ， 且 还 支持 将 断 开 连 接 上 即将 执行 的 命令 传输 到 为 一 条 连接 
(可 能 需要 创建 ) 上 。 

每 种 恢复 过 程 仅 适用 于 特定 环境 。 例 如 ， 在 局 域 网 (LAN) 中 ， 出 现任 意 类 型 的 错误 都 比较 罕见 ， 
因而 只 需要 进行 会 话 恢复 就 足够 了 。 总 而 言 之 ， 只 要 在 启动 顺和 目标 之 间 有 可 能 建立 连接 ， 则 iSCSI 会 
话 即 可 保持 激活 状态 。 当 最 后 一 条 连接 关闭 时 ， 会 话 终止 。 要 使 多 个 连接 在 局 动 侨 和 目标 之 间 显 示 为 
单个 SCSI HÆ, iSCSI 需要 使 用 序列 号 和 标签 。 

在 iSCSI 中 ， 会 话 标识 符 由 启动 器 部 分 和 目标 部 分 构成 。 前 者 〈 局 动 器 会 话 标识 符 ) 由 局 动 絮 在 会 
话 建 立时 显 式 分 配 ; 后 者 由 TCP 端点 选择 的 启动 器 隐 式 表达 。 为 了 确保 启动 器 与 给 定 目标 〈 特 别 是 当 
启动 器 分 布 式 部 署 时 ) 进行 的 每 次 会 话 标识 符 唯 一 ， 需 要 指定 一 种 由 注册 机 构 控制 的 分 层 售 名 空间 。 

必须 强调 ， 可 能 是 登录 过 程 组 成 部 分 的 相互 认证 步骤 只 是 一 次 性 事件 。 对 于 后 续 通 信和 是 否 仍然 发 
生 在 认证 节点 之 间 没 有 任何 影响 。 此 外 ，iSCSI 本 身 不 提供 任何 保护 连接 或 会 话 的 机 制 。 所 有 本 机 iSCSI 
通信 都 使 用 明文 ， 易 受到 窃听 和 主动 攻击 。 在 不 受信 任 的 环境 中 ，iSCSI 应 与 IPSec 一 起 使 用 。 


| 


网 络 连接 存储 (NAS) 以 独立 于 操作 系统 的 方式 提供 对 共享 数据 的 文件 级 受 控 访问 。 其 设计 要 求 
来 自 于 客户 端的 每 个 与 文件 相关 的 WO 请 求 通过 文件 服务 器 ， 该 服务 器 充当 文件 存储 设备 的 适 配 货 。 
因此 ,文件 服务 器 是 限制 VO 香 吐 量 的 潜在 瓶颈 。 解 决 这 一 限制 的 方法 之 一 是 允许 客户 端 通过 共 盏 元 
数据 直接 访问 存储 设备 。 然 而 ， 实 现 的 性 能 增益 却 是 以 牺牲 安全 性 为 代价 的 。 传 统 的 块 存储 设备 相 


© 由 IANA (Internet Assigned Numbers Authority， 互 联网 号 码 分 配 机 构 ) 分 配 的 iSCSI 知名 TCP 端口 号 是 3260。 
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对 简单 ， 它 可 以 读 取 和 写 和 人 0、1 数据 块 ， 但 不 具备 理解 数据 含义 或 辨别 诸如 文件 或 目录 等 结构 的 能 
力 。 访 问 控制 只 适用 于 整 台 设备 ， 可 以 赋予 客户 端 访问 所 有 内 容 的 权利 ， 也 可 以 禁止 其 访问 任何 内 容 。 
这 显然 是 有 问题 的 。 此 时 ， 对 象 存储 应 运 而 生 。 

一 种 相对 较 新 的 技术 ( 称 为 对 象 存储 ) 支持 跨 多 种 操作 系统 并 以 直接 存储 访问 的 速度 安全 地 进行 
数据 共享 。 它 的 主要 特征 是 : 比 块 级 更 高 的 抽象 级 新 型 设备 接口 ; @ 设 备 本 身 的 附加 智能 。 通 过 新 
接口 (INCITS T10 技术 委员 会 已 经 完成 了 标准 化 工作 ) ， 存 储 设备 作为 对 象 集合 出 现 。 对 象 是 平面 命名 
空间 中 唯一 可 识别 的 有 序 字 节 集 。 对 象 可 以 包含 任何 类 型 的 数据 ， 无 论 是 文件 、 数 据 库 ， 还 是 整个 文 
件 系统 。 对 象 的 组 成 部 分 是 什么 取决 于 存储 应 用 。 当 对 象 被 创建 、 删 除 、 修 改 或 复制 时 ， 分配 和 释放 
块 的 相关 任务 由 存储 设备 进行 执行 。 为 了 跟踪 在 用 块 和 空闲 块 ， 设 备 依赖 于 每 个 对 象 的 元 数据 。 

设备 附加 智能 是 指 理解 元 数据 、 管 理 空间 和 支持 细 粒 度 访 问 控制 等 功能 。 这 种 设备 内 置 的 功能 支 
持 新 性 能 优化 机 制 ( 如 文件 预 取 和 数据 重组 )， 简 化 应 用 聚 类 ， 并 支持 自动 化 存储 管理 。 

细 粒 度 访问 控制 是 云 计 算 的 基础 。ANSI INCITS 458 -20112 标准 中 定义 的 访问 控制 机 制 是 建立 在 能 
力 和 证 书 上 的 概念 。 该 能 力 描述 客户 端 访 问 对 象 的 权限 ， 如 读 取 、 写 入、 创建 或 删除 。 本 质 上 ， 证 书 
是 一 种 使 用 加 密 保 护 的 防 算 改 能 力 ， 包 括 使 用 共享 密 钥 生成 密 钥 散 列 消息 认证 码 (Hash Message Au- 
thentication Code, HMAC) 的 能 力 ” 。 更 具体 地 说 ， 证 书 是 一 种 结构 : 

《能 力 ， 对 象 存储 标识 符 ， 能 力 密 钥 ， 
其 中 
能 力 密 钥 = HMAC (WH, 能 力 | 对象 存储 标识 符 ) 

图 6. 33 描绘 了 概念 模型 。 安 全 管理 器 负 
责 根 据 客 户 端 请 求 的 策略 授予 证 书 。 用 于 计 
算 能 力 密 钥 的 秘密 密 钥 在 安全 管理 器 和 对 象 
存储 设备 之 间 进 行 共 享 。 当 且 仅 当 客 户 端 提 
供 它 拥有 合法 证 书 的 证 明 时 ， 对 象 存储 设备 
才 将 执行 命令 。 因 此 ， 存 储 设 备 充当 的 是 访 
问 策 略 实 施 者 的 角色 。 融合 存储 网 络 

现在 的 问题 是 如 何 提供 合理 的 证 明 。 就 iE 
像 驾 照 证 明 司 机 具备 驾驶 某 类 车 辆 资格 一 样 ， 
证 书本 身 可 以 作为 证 明 吗 ? 

为 了 回答 这 一 问题 ， 考 虑 一 下 相关 证 明 
的 基本 要 求 。 至 少 来 说 ， 证 明 应 该 是 可 验证 
的 、 防 自 改 的 、 难 以 伪造 的 ， 且 能 防止 未 授 | 
权 使 用 。 证 书 需 要 满足 除 最 后 一 条 之 外 的 所 | 
有 要 求 ; 没有 内 置 机 制 将 其 绑 定 到 获取 客户 端 
或 客户 端 和 存储 设备 之 间 的 通信 信道 上 。 相 比 之 下 ， 驾 照 有 一 张 司 机 照片 ， 能 够 将 驾照 与 驾驶 员 绑 定 ， 
虽然 手 上 的 问题 并 不 需要 这 么 强大 的 约束 力 。 显 然 ， 这 并 不 理想 ， 特 别 是 在 未 得 到 有 效 保护 的 存储 传 
输 中 证 书 易 受 到 家 听 的 情况 下 。 

因此 ， 另 一 种 证 明 方案 是 可 用 的 。 标 准 化 方案 基于 能 力 密 钥 来 得 出 证 明 。 证 明 是 根据 协商 的 安全 
方法 通过 选择 性 请 求 组件 的 能 力 密 钥 来 进行 量化 计算 。 下 面 的 安全 方法 是 可 行 的 : 

1) NOSEC。 也 就 是 说 ， 不 使 用 访问 控制 。 在 这 种 情形 中 ， 存 储 设备 执行 命令 而 不 需要 任何 证 明 。 
此 方法 仅 适 用 于 完全 隔离 的 环境 。 在 这 种 环境 中 ,， 链 路 是 安全 的 ， 且 客户 端 和 存储 设备 之 间 存 在 着 信 
任 关系 。 

2) CAPKEY。 在 这 种 情形 中 ,证 明 是 客户 端 和 存储 设备 之 间 信 道 标识 符 的 完整 性 检查 值 。 因 此 ， 
正在 使 用 的 特定 频道 是 固定 的 (信道 标识 符 由 对 象 存 储 设备 分 配 ， 客 户 端 可 从 该 对 象 存 储 设备 处 获取 
信息 )。 该 方案 假设 信道 本 身 是 安全 的 。 它 可 以 防止 证 书 在 不 同 信 道上 未 经 授权 使 用 ， 同 时 支持 授权 ， 





© ANSI INCITS 458 -2011， 基 于 对 象 的 存储 设备 命令 -2 (OSD -2)。 
© 参见 FIPS 198 (2002)， 密 钥 散 列 消息 认证 码 (HMAC) 和 FIPS 180 -1 (1995) ， 安 全 散 列 标准 。 
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即 把 证 书 转 发 给 另 一 个 客户 端 ”。 对 于 给 定 的 信道 ， 该 方案 相当 简单 。 客 户 端 不 需要 请 求证 书 或 单独 
计算 每 条 命令 的 完整 性 检查 值 。 

3) CMDRSP。 在 这 种 情形 中 ,证 明 是 请 求 中 命令 的 完整 性 检查 值 。 该 方案 适用 于 客户 端 和 存储 设 
备 之 间 信 道 不 安全 的 环境 ， 但 为 用 户 数 据 提 供 完整 性 保护 是 不 切实 际 的 。 除 了 命令 源 认证 和 完整 性 保 
护 外 ， 它 还 通过 在 每 条 请 求 中 使 用 随机 数 (nonce”) 来 提供 抗 重 放 保 护 。Factor 等 人 撰写 的 论文 ”人 解 
释 了 相应 的 随机 数 管理 机 制 。 

4) ALLDATA。 在 这 种 情形 中 ， 该 证 明 包 含 多 个 完整 性 检查 值 (包括 CMDRSP 的 完整 性 检查 值 ) 。 
额外 的 完整 性 检查 值 分 别 是 通过 对 存储 设备 发 送 和 接收 的 数据 进行 计算 得 到 的 。 因 此 ， 在 CMDRSP 提 
供 的 功能 之 上 ， 该 方案 能 够 为 客户 端 和 存储 设备 之 间 交 换 的 数据 提供 抗 重 放 和 防 算 改 保护 。 对 于 CM- 
DRSP 来 说 ， 它 适用 于 通信 信道 不 安全 的 环境 。 

需要 注意 的 是 ， 访 问 控制 机 制 不 涉及 实际 的 客户 端 认 证 。 由 此 导致 的 客户 端 和 存储 设备 解 耦 能 够 
提高 可 扩展 性 ， 支 持 存 储 设备 可 以 独立 于 特定 客户 端 进行 扩展 。 然 而 ， 当 流氓 客户 端 可 以 访问 存储 设 
备 时 ， 需 要 一 种 撤销 证 书 的 方法 。 这 里 有 两 种 解决 方案 。 

一 种 方案 是 安全 管理 顺和 对 象 存储 设备 更 改 相 关 的 秘密 密 钥 。 这 种 方案 相对 易于 实现 ， 但 它 存 在 
单个 对 象 之 外 的 系统 效应 。 一 旦 更 改 密 钥 ， 所 有 未 完成 的 证 书 均 将 失效 。 

另 一 种 方案 是 安全 管理 器 重 置 存储 设备 中 有 问题 对 象 的 策略 访问 标签 。 标 签 也 是 能 力 结构 的 一 部 
分 。 合 法 证 书 必须 具有 与 设备 存储 内 容 相 匹配 的 策略 访问 标签 。 





6.2.6 存储 虚拟 化 *** 


存储 虚拟 化 9 涉及 物理 存储 的 抽象 ， 来 向 应 用 屏蔽 其 底层 细节 ( 如 实际 介质 、 访 问 接口 和 位 
置 ?) 。 因 此 ， 物 理 上 分 散 的 异 构 存储 系统 能 以 单个 聚合 实体 的 形式 出 现 ， 反 之 亦 然 。 例 如 ， 对 于 操作 
系统 来 说 ，10 个 800GB 的 硬盘 可 以 模拟 为 1 个 8TB 的 虚拟 硬盘 。 相 反 ， 可 以 将 1 个 8TB 的 硬盘 分 区 为 
8 个 1TB 的 虚拟 磁盘 ， 并 将 其 分 配给 不 同 主机 。 逻 辑 上 分 配 存储 空间 的 灵活 性 还 支持 动态 资源 管理 ， 进 
而 提高 整体 资源 的 利用 率 。 

通常 ， 存 储 虚 拟 化 需要 : 管理 将 逻辑 存储 映射 到 
物理 设备 的 元 数据 ;@ 根 据 映射 来 转换 和 重 定向 1/0 操 in 
作 。 文 件 级 虚拟 化 建立 在 块 级 虚拟 化 之 上 。 文 件 级 虚拟 
化 要 求 将 存储 卷 以 文件 呈现 。 如 图 6. 34 所 示 ， 使 用 虚 
拟 化 实体 ， 多 个 文件 服务 器 可 以 单个 虚拟 文件 服务 器 的 
形式 出 现 。 

通过 使 用 块 级 存储 虚拟 化 ， 对 操作 系统 来 说 ， 存 储 
可 以 一 组 逻辑 卷 或 虚拟 磁盘 的 形式 呈现 〈 逻 辑 卷 可 以 组 
合 不 连续 物理 分 区 并 跨 多 台 物 理 存储 设备 ) 。 

如 图 6.34 所 示 ， 根 据 虚拟 化 完成 的 位 置 (EBL. 

网 络 或 存储 设备 ) ， 存 在 着 3 种 块 级 虚拟 化 方法 。 在 基 
于 主机 的 方法 中 ， 虚 拟 化 由 卷 管理 器 进行 处 理 ， 且 卷 管 
理 器 本 身 可 能 是 操作 系统 的 一 部 分 。 卷 管理 器 负责 将 本 
地 块 映射 到 逻辑 卷 ， 同 时 跟踪 整体 存储 利用 率 。 在 理想 
情况 下 ， 映 射 应 提供 动态 调整 功能 ， 即 根据 特定 应 用 的 
最 新 需求 来 增 大 或 碱 小 虚拟 存储 容量 。 该 方法 的 主要 缺 
点 是 逐个 主机 控制 不 利于 提高 多 主机 环境 中 的 最 优 存储 

利用 率 ， 更 不 用 说 卷 管理 器 的 操作 开销 成 倍 上 升 。 _ 





O 单词 nonee 是 一 个 只 被 使 用 一 次 的 字符 串 〈 作 为 通信 交换 的 一 部 分 ) 。 这 是 一 种 确保 新 鲜 度 的 机 制 。 以 支票 德 为 例 ， 里 
卫 的 每 张 支票 者 应 该 是 唯一 的 这样 可 以 非常 容易 地 将 副本 与 原件 区 分 开 来 ) ， 且 为 了 确保 只 一 性 ， 人 们 使 用 了 包括 序 
列 号 和 水 印 在 内 的 诸多 机 制 。 

四 ”从 这 个 意义 上 讲 ， 邹 悉 的 文件 系统 结构 其 实 是 一 种 存储 虚拟 化 形式 。 
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在 基于 存储 设备 的 方法 中 ， 虚 拟 化 由 存储 系统 的 控制 右 进 行 处 理 。 由 于 控制 化 与 物理 存储 融 距 离 
非常 近 ， 因 而 这 种 方法 往往 能 够 达到 良好 性 能 。 然 而 ， 它 具有 过 分 依赖 供应 商 和 难以 《即便 有 可 能 ) 
跨 异 构 存 储 系统 工作 的 缺点 。 

在 基于 网 络 的 方法 中 ， 虚 拟 化 由 存储 网 络 中 的 特殊 功能 实体 来 处 理 ， 且 该 实体 可 能 是 交换 机 的 一 
部 分 。 只 要 主机 和 存储 系统 文 持 适当 的 存储 网 络 协 议 CON FC、FCoE 或 1SCSI)， 该 方法 对 它们 就 是 透明 
的 。 根 据 控 制 流量 和 应 用 流量 的 处 理 方式 ， 可 以 进一步 将 其 分 为 带 内 〈 对 称 ) 或 带 外 (不 对 称 ) 方法 。 

图 6. 35 对 市 内 方法 进行 了 描述 ， 其 中 用 于 映射 和 1O 重 定向 的 虚拟 化 功能 实体 始终 位 于 控制 和 应 
用 流量 的 路 径 中 。 当 然 ， 虚拟 化 功能 实体 可 能 会 成 为 瓶 开 和 单 太 故障。 缓存 和 聚 类 是 缓解 这 些 问题 的 
第 用 技术 。 

从 积极 的 方面 看 ， 由 市 内 方法 提供 的 中 心 控 制 点 简化 了 管理 ， 并 支持 诸如 快照 、 复 制 和 迁移 等 高 
级 存储 功能 。 快 照 功能 与 云 计算 密切 相关 。 它 可 以 用 于 捕获 虚拟 机 在 某 个 时 间 点 的 状态 ,反映 其 组 件 
(如 存储 器 、 磁 盘 和 网 络 接口 卡 ) 的 运行 状况 。 状 态 信息 允许 在 应 用 补丁 或 故障 后 回 滚 。 然 而 ， 此 时 存 
在 着 一 种 折 中 ， 因 为 在 这 种 情况 下 ， 在 创建 虚拟 机 的 快照 时 ， 同 一 主机 上 其 他 虚拟 机 的 性 能 可 能 会 受 
到 影响 。 


存储 阵列 


+--> 控制 
«> 应 用 数据 





图 6. 36 对 市 外 方式 进行 了 描述 ， 其 中 虚拟 化 功能 实体 位 于 控制 流量 的 路 径 上 ， 但 没有 在 应 用 流量 
的 路 径 上 。 虚 拟 化 功能 实体 可 以 为 应 用 流量 定向 。 与 带 内 方法 相 比 ， 该 方法 具有 更 好 的 性 能 ， 因 为 应 
用 流量 可 以 直接 进入 目的 地 ， 而 不 会 在 虚拟 化 功能 实体 中 导致 任何 处 理 延 迟 。 但 这 种 方法 并 不 支持 高 
级 存储 功能 。 更 重要 的 是 ， 它 要 求 主机 对 控制 和 应 用 流量 加 以 区 分 ， 并 准确 地 路 由 流量 。 因 此 ， 主机 
需要 增加 虚拟 化 适配器 ， 它 还 可 能 会 支持 缓存 元 数据 和 应 用 数据 以 提高 性 能 。 然 而 ， 每 个 主机 的 缓存 
面临 看 保持 分 布 式 缓存 一 致 的 挑战 性 问题 。 

鉴于 相对 透明 度 和 存储 池 的 灵活 性 ， 基 于 网 络 的 方法 最 适用 于 云 计 算 。 采 用 这 种 方法 ， 可 以 将 存 
储 分 配给 VM (虚拟 机 ) 主机 ， 而 VM 主机 又 可 以 通过 本 章 参 考 文献 [27] 中 描述 的 自身 虚拟 化 设施 将 
分 配 到 的 虚拟 存储 分 配给 虚拟 机 。 然 而 ， 带 内 和 带 外 方法 之 间 的 选择 并 不 十 分 清晰 ， 主 要 取决 于 应 用 。 
理想 情况 是 采用 一 种 综合 了 两 种 方法 优点 的 混合 方法 。 显 然 ， 使 用 智能 交换 机 实际 上 是 可 以 实现 这 一 
点 的 ， 已 主要 负责 F: 理 带 外 控制 流量 和 带 内 应 用 流量 o 


6.2.7 固态 存储 xxx 
存储 技术 在 性 能 、 成 本 和 其 他 属性 方面 差别 很 大 。 表 6. 3 对 存储 技术 差异 进行 了 汇总 。 其 中 给 出 


的 访问 时 间 和 成 本 与 磁盘 的 访问 时 间 和 成 本 相关 。 磁盘 的 访问 时 间 为 毫秒 级 。 静 态 随机 存 取 存 储 器 
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注 ; SRAM 一 静态 随机 存 取 存储 器 ; DRAM 一 动态 随机 存 取 存 储 器 


(Static Random Access Memory, SRAM), 、 动 态 随 机 存 取 存储 器 (Dynamic Random Access Memory, 
DRAM) 和 闪存 比 硬盘 快 得 多 。 

在 没有 移动 部 件 和 完全 电子 处 理 的 情况 下 ， 这 些 存 储 器 在 其 他 方面 (如 抗 冲击 性 和 能 量 效率 ) 也 
是 非常 优异 的 。 在 动态 随机 存 取 存储 器 的 情况 下 ， 数 据 作 为 电荷 存储 在 电容 中 。 由 于 电荷 随 着 时 间 而 
泄漏 ， 因 而 电容 需要 定期 进行 刷新 。 定 期 刷新 的 需求 解释 了 将 此 类 RAM 命名 为 动态 的 原因 。 使 用 静态 
随机 存 取 和 存储 器， 数据 是 存储 在 晶体 管 而 不 是 电容 中 的 。 静 态 随 机 存 取 存 储 器 不 需要 进行 刷新 ， 这 一 
点 使 得 SRAM 比 DRAM 快 。 然 而 ，SRAM 和 DRAM 都 是 易 失 性 的 ， 因 为 它们 需要 电源 来 保持 存储 的 数 
据 。 相 比 之 下 ， 闪 存 是 非 易 失 性 的 。 

闪存 是 一 种 电 可 擦 除 可 编程 只 读 存 储 器 (Electrically Erasable Programmable Read - Only Memory, 
EEPROM)”。 将 数据 保存 在 浮 栅 岛 中 ， 它 可 以 长 时 间 (可 达 数 年 ) 保持 电荷 。20 世纪 80 年 代 ， 芯 尾 增 
由 博士 在 东芝 工作 时 发 明了 一 种 相对 较 新 的 闪存 技术 。 将 该 技术 命名 为 内 存 ， 因 为 它 能 够 快速 探 除 大 
块 内 存 。 实 际 上 ，Fujio Masuoka 博士 在 1984 年 和 1987 年 分 别 设计 了 两 种 闪存 ” 。 第 一 种 类 型 称 为 NOR 
内 存 ， 因 为 其 基本 结构 具有 类 似 于 NOR (或 非 ) 门 的 属性 。NOR 闪存 速度 非常 快 (至 少 比 硬盘 快 )， 
且 可 以 随机 地 寻 址 到 给 定 字 节 。NOR 闪存 的 存储 密度 有 限 。 


O “ 电 可 擦 除 ” 意 义 重大 ， 因 为 早期 的 可 擦 除 可 编程 只 读 存 储 器 (EPROM) 技术 需要 暴露 于 紫外 线 (超过 10min) 以 擦 除 
内 容 。 可 编程 EPROM 也 需要 单独 的 专用 设备 。 
© Fujio Masuoka 博士 在 接受 采访 时 9 指出 ， 他 在 1982 年 发 明了 NOR 闪存 ， 但 在 1984 年 才 发 表 了 与 其 相关 的 首 篇 文章 。 
因此 ， 在 大 多 数 文献 中 ， 通 常 认为 NOR 闪存 的 诞生 时 间 是 1984 年 。 
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第 二 种 类 型 的 闪存 消除 了 这 一 限制 条 件 〈 同 时 也 降低 了 成 本 ) 。 称 其 为 NAND 闪存 ， 因 为 其 基本 结 
构 具 有 类 似 于 NAND 门 的 属性 。 然 而 ，NAND 闪存 仅 允许 以 大 于 1 字 节 的 单位 进行 随机 访问 。NAND 内 
存在 消费 类 电子 产品 中 占有 一 席 之 地 ”， 且 比 NOR 闪存 应 用 范围 更 为 广泛 ， 如 数字 相机 、 便 携 式 音乐 
播放 器 和 智能 手机 等 。 

处 理 存储 技术 巨大 差异 的 方法 是 实现 分 层 存储 。 图 6. 37 描述 了 存储 器 层次 结构 ， 其 中 存储 胡 的 层 
次 越 低 ， 它 与 处 理 器 的 距离 越 近 ， 速 度 越 快 ， 成 本 越 高 ， 且 尺寸 越 小 。 不 同 层次 存储 器 尺寸 的 约束 条 
件 意味 着 数据 可 以 全 部 存储 在 较 高 层次 上 ,该 层 的 存储 器 具有 足够 大 小 。 此 外 ， 保 存在 某 层 存储 句 的 
数据 只 能 是 保存 在 上 层 存储 器 的 数据 的 一 个 子 集 ”。 总 之 ， 存 储 器 层次 结构 旨 在 让 用 户 产生 一 种 无 限 快 
速 存储 器 的 错觉 。 将 数据 保存 在 存储 器 层次 结构 中 的 一 般 策 略 是 将 最 近 访 问 的 数据 项 保存 在 处 理 右 附 
近 ， 且 在 复制 数据 项 到 较 低 层 时 将 其 邻近 层 包 含 进来 。 对 于 存储 器 层次 结构 的 深入 讨论 ,我 们 推荐 大 
家 阅读 John L. Hennessy 和 David A. Patterson 编著 的 计算 机 架构 教材 me 


与 处 理 器 距离 
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直到 最 近 ， 存 储 器 通用 层次 结构 是 : SRAM 用 于 缓存 、DRAM 用 于 主 存储 器 、 硬 盘 用 于 分 页 存储 
船 。 固 态 存 储 技术 的 不 断 发 展 引 入 了 其 他 实用 的 解决 方案 。 

特别 需要 指出 的 是 ，NAND 闪存 已 经 成 为 硬盘 的 第 一 个 有 力 挑战 者 。 它 在 存储 器 层次 结构 中 越 来 
越 多 地 应 用 于 SRAM 和 硬盘 之 间 。 当 以 这 种 方式 使 用 时 ， 闪 存 被 塑造 成 固态 驱动 器 ， 它 能 够 模拟 硬盘 
驱动 硕 来 协助 实现 与 现 有 系统 的 集成 。 

在 不 久 的 将 来 ， 虽然 固态 硬盘 的 价格 (每 字 节 的 成 本 ) 仍 会 比 硬盘 驱动 器 更 加 昂贵 ， 但 它们 可 以 
提供 更 好 的 O 性 能 。 固 态 硬盘 驱动 器 在 随机 读 取 操作 方面 的 性 能 要 比 硬盘 高 大 约 3 个 数量 级 。 尤 其 
适用 于 那些 涉及 高 比例 随机 IO 操作 的 应 用 。Web 和 在 线 事 务 处 理 服务 是 此 类 应 用 的 常见 实例 。 云 服 
务 是 一 个 更 好 的 例子 ， 因 为 它们 将 不 相关 的 工作 负载 复 用 在 同一 硬件 上 ， 即 VO 混合 器 效应 。 

BED PAB ASME, Yi bel NAND 闪存 固有 的 3 个 限制 条 件 : 

1) 对 现 有 内 容 进行 写 操作 需要 首先 擦 除 此 内 容 (这 使 写 操作 比 读 操作 慢 得 多 ) 。 

2) 擦 除 操作 是 以 块 为 单位 完成 的 ， 而 写 操作 是 以 页 为 单位 进行 的 。 

3) 在 经 历 过 有 限 个 写 人 - 擦 除 周 期 之 后 ， 存 储 单元 耗 尽 。 

考虑 到 这 些 限 制 条 件 ， 直 接 更 新 已 有 页 面 内 容 将 会 导致 高 延迟 ， 因 为 需要 对 整个 块 进行 读 取 、 擦 
除 和 重新 编程 。 显 然 ， 这 是 不 可 取 的 ,会 导致 重 定位 写 人 (或 异地 写 入 ) 的 事实 。 这 里 ， 需 要 将 最 新 
数据 写 入 一 个 空 闪 页面， 而 将 旧 页 面 标记 为 无 效 。 

O 在 严格 的 内 存 层次 结构 中 ， 信 息 只 能 从 一 层 复制 到 相 邻 层 。 

O 在 块 中 ， 可 以 对 页 面 进 行 组 合 。 典 型 的 块 包含 32、64 或 128 页 ( 它 往往 比 文件 系统 中 的 块 大 ) 。 页 面 尺 寸 是 变化 的 。 例 
On, 1 页 可 以 包含 512、2048 或 4096 字 节 。 
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在 牺牲 越 来 越 多 无 效 页 面 的 情况 下 ， 写 人 性 能 得 到 了 改善 。 如 果 不 进 行 释 放 ， 则 无 效 页 面 将 会 迅 
速 耗 尽 存储 空间 。 要 释放 存储 空间 ， 垃 圾 回收 是 必要 的 。 

对 于 纯 序列 写 信 操作， 垃圾 回收 非常 简单 。 当 逐 页 写 人 数据 时 ， 可 以 对 块 进行 逐个 报废 和 回收 。 
这 不 需要 额外 的 写 人 - 擦 除 操作 。 相 比 之 下 ， 随 机 写 人 操作 的 情况 要 复杂 得 多 ， 因 而 需要 更 加 复杂 的 
算法 。 例 如 ， 某 种 算法 可 以 实现 回收 页 面 数 量 的 最 大 化 或 额外 读 写 操作 数量 的 最 小 化 。 垃 圾 回收 算法 
的 有 效 性 取决 于 它 所 导致 的 写 人 操作 放大 程度 。 

因为 存在 写 人 放大 问题 ， 所 以 在 NAND 闪存 上 执行 的 写 入 操作 最 终 数 要 大 于 主机 所 要 求 的 写 人 操 
作 数 。 当 然 ， 由 于 性 能 和 耐久 性 方面 的 原因 ， 最 好 还 是 要 尽 可 能 遏制 写 人 放大 现象 。 这 种 遏制 在 云 计 
算 中 尤其 重要 ， 因 为 随 着 写 人 操作 量 的 增加 ， 写 入 放大 现象 会 越 来 越 严 重 。 

存在 着 两 种 用 于 遏制 写 人 放大 的 技术 。 

一 种 技术 是 超 量 配置 ， 即 将 用 户 地 址 空间 限制 为 原始 内 存 容 量 的 一 小 部 分 。 超 量 配置 会 增加 选择 
用 于 回收 的 块 中 的 无 效 页 面 数 量 。 该 技术 是 有 效 的 ， 且 不 依赖 于 操作 系统 (或 文件 系统 ) 的 特殊 支持 。 

该 技术 采用 特殊 的 ATA 命令 来 通知 底层 存储 器 需要 删除 哪些 数据 。 使 用 硬盘 时 不 需要 这 种 命令 ， 
因为 存储 介质 支持 就 地 写 入 。 在 NAND 闪存 的 情况 下 ， 该 命令 有 很 大 的 不 同 ， 因 为 它 节省 了 垃圾 收集 
期 间 浪 费 的 时 间 。 

为 了 延长 NAND 闪存 的 使 用 寿命 ， 可 采用 “耗损 均衡 ”的 做 法 以 尽 可 能 均匀 地 扩展 写 和 人 - 擦 除 操 
作 。 需 要 注意 的 是 ， 异 地 写 人 本 质 上 支持 耗损 均衡 。 这 种 做 法 引入 了 写 和 放大。 为 了 考察 其 效果 ， 图 
6. 38 给 出 了 极端 实例 。 

在 图 6. 38 中 ， 单 元 对 应 于 页 面 ， 它 们 可 
能 是 有 效 的 、 无 效 的 或 空闲 的 (未 标记 的 )， 
而 行 对 应 于 块 。 每 个 块 的 阴影 表示 其 年 龄 。 
块 的 阴影 越 瞳 ， 块 的 年 龄 越 大 。 块 5 ERS 
的 ， 达 到 生命 的 终点 ， 而 块 1 是 最 年 轻 的 ， 
仍然 拥有 诸多 写 人 - 擦 除 周期 。 给 定 状 态 后 ， 
除非 腾空 男 一 个 块 ( 即 空闲 块 ) 来 替换 块 5， 
否则 内 存 也 将 不 再 可 用 。 

假设 存储 在 块 1 中 的 数据 是 静态 的 ， 则 
它 是 可 腾空 的 最 佳 块 ， 原因 有 二 : 由 一 旦 使 i 
用 块 1 的 数据 进行 编程 ， 则 不 再 需要 对 块 5 进 上 __ 一 
TER; OFMENAMEKTRAH A, Eo ees ae 
将 块 1 的 内 容重 定位 到 块 5 需要 比 任何 其 他 解 
决 方案 更 多 的 读 取 和 写 入 操作 。 因 此 ， 耗 损 均 衡 不 仅 涉及 未 使 用 的 周期 ， 而 且 还 涉及 移动 未 变化 数据 
浪费 的 周期 。 本 章 参 考 文献 [32] 对 写 入 放大 和 耗损 均衡 进行 了 透彻 的 分 析 。 

尽管 云 服 务 成 本 高 昂 ， 可 是 其 独特 性 能 仍然 为 基于 DRAM 的 存储 设备 留 足 了 空间 。 为 了 解决 波动 
问题 ， 这 些 设 备 配 有 内 置 电池 或 其 他 备用 电源 。 更 为 有 趣 的 是 ， 斯 坦 福 大 学 曾经 研发 过 一 个 名 为 RAM- 
Cloud 的 项 目 ”。 该 项 目 旨 在 创建 一 种 在 数据 中 心 使 用 的 新 存储 类 型 ， 它 可 以 随时 将 所 有 数据 保存 在 
DRAM 中 。 商 用 服务 器 是 构成 模块 。 根 据 所 需 规模 ， 可 以 将 数 以 千 计 的 商用 服务 器 集成 为 单个 统一 大 
型 存储 系统 。 预 计 这 种 存储 系统 具有 卓越 的 性 能 ， 但 同时 也 面临 着 若干 个 挑战 。 除 了 其 他 方面 (如 高 
度 分 布 式 存储 和 低 时 延 网 络 的 管理 ) 的 挑战 外 ， 存 储 在 RAMCloud 上 的 数据 应 该 与 存储 在 硬盘 上 的 数 
据 一 样 持久 耐用 ， 电 源 故 障 不 能 导致 永久 性 数据 丢失 ; 单个 存储 服务 器 的 故障 不 能 导致 数据 丢失 或 数 
秒 内 不 可 用 。 这 些 需 求 就 是 复制 和 备份 技术 的 需求 ， 它 们 可 以 充分 利用 非 易 失 性 磁盘 存储 ， 同 时 保持 
由 DRAM 提供 的 原始 性 能 优势 。“ 缓 存 日 志 记 录 ” ”就 是 这 样 的 技术 。 需 要 注意 的 是 ， 缓 存 日 志 记录 与 
前 面 讨 论 的 文件 系统 日 志 记 录 有 关 。 它 同时 使 用 磁盘 和 存储 器 进行 备份 。 可 以 将 主 存储 服务 器 上 的 数 
据 变化 以 日 志 条 目的 形式 同步 复制 到 备份 存储 器 上 ， 但 以 异步 方式 复制 到 磁盘 上 。 存 储 器 副本 是 暂时 
的 。 对 副本 进行 缓存 ， 然 后 批量 传输 到 磁盘 。 一 旦 复制 到 磁盘 上 ， 则 将 日 志 条 目 从 备份 存储 器 中 删除 。 
缓冲 记录 确保 了 性 能 ， 但 会 留 下 潜在 的 问题 :. 如 果 主 存储 器 和 所 有 备份 存储 器 同时 掉 电 ， 则 缓存 数据 
将 丢失 。 这 一 问题 的 直观 解决 方案 是 为 每 台 存 储 服务 器 配备 一 枚 小 电池 ， 以 便 能 够 在 掉 电 后 将 缓存 的 
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日 志 条 目 刷新 到 磁盘 。 颇 具 讽 刺 意 味 的 是 ， 这 种 特殊 配置 偏离 了 使 用 商用 服务 器 的 原始 假设 。 

从 本 质 上 讲 ，RAMCloud 提供 了 近乎 无 限 容 量 的 远程 缓存 以 提高 应 用 性 能 。 在 这 方面 ， 它 受到 
Memcached' 的 影响 ，Memcached 是 Brad Fitzpatrick 最 早 开 发 的 开源 分 布 式 缓存 系统 ， 用 以 提高 Live- 
Journal 的 性 能 ”。Memcached 能 够 为 商用 计算 机 上 DRAM 中 的 小 块 任意 数据 提供 简单 的 键 值 存储 。 它 
特别 适用 于 缓存 ， 且 支持 应 用 绕 过 诸如 数据 库 查询 之 类 的 大 量 操作 。 数 据 持久 性 不 是 该 解决 方案 重点 
考虑 的 一 部 分 ; 每 个 缓存 条 目 仅 在 一 段 时 间 内 有 效 。Memcached 是 基于 客户 端 /服务 器 的 ， 它 采用 的 是 
请 求 / 响 应 协议 〈 可 以 通过 采用 TCP 或 UDP 运行 )。 

服务 器 将 数据 存储 在 散 列 表 中 。 键 值 是 用 于 索引 到 表 中 的 唯一 字符 串 。 人 例如， 数据 库 查 询 结果 可 
以 缓存 在 将 查询 字符 串 作 为 键 值 的 Memcached 服务 器 中 。 尽 管 每 个 数据 项 的 使 用 寿命 都 是 非常 有 限 的 ， 
但 Memcached 并 没有 通过 垃圾 回收 来 主动 释放 内 存 。 相 反 ， 只 有 当 检 索 到 过 期 数据 项 或 者 当 需 要 空间 
用 于 缓存 新 数据 项 时 ， 才 会 考虑 释放 存储 器 。 在 后 一 种 情况 下 ， 将 丢弃 最 近 最 少 使 用 的 数据 项 -。 如 果 
过 期 的 项 目 存 在 ， 则 首先 选择 它 来 进行 回收 。 否 则 ， 选 择 一 个 仍然 有 效 的 项 目 。 

根据 服务 器 上 可 用 的 DRAM 大 小 ， 绥 存 工作 负载 数据 可 能 需要 多 个 服务 器 。 在 这 种 情况 下 ， 散 列 
表 分 布 在 多 个 服务 器 上 ， 这 些 服务 器 形成 具有 聚合 DRAM 的 集群 。 在 设计 时 ，Memcached 服务 船 相 互 
既 不 了 解 又 不 能 统一 协调 。 客 户 端的 工作 是 选择 使 用 什么 样 的 服务 器 ， 且 客户 端 〈 拥 有 在 用 服务 需 的 
信息 ) 基于 要 缓存 的 数据 项 键 值 来 完成 这 一 工作 。 

如 何 分 配 散 列表 以 便 选择 同一 服务 器 为 同一 键 值 提供 服务 ? 原始 方案 可 能 是 这 样 的 : 

s = H( k) modn 

式 中 , ACh) 是 散 列 函数 ; k TE; n 是 服务 器 的 数量 ; s 是 服务 器 标签 ， 它 等 于 有 H(k) 除 以 nn 的 余 
数 。 

RE n 是 常数 ,该 方案 就 可 以 正常 工作 , 但 当 服 务 胡 数 量 动 态 增 加 或 减少 时 ， 它 很 可 能 会 出 现 不 
同 服务 器 提供 服务 的 情况 ， 这 与 云 计 算 中 篆 见 的 情形 相同 。 因 此 ， 绥 存 空 间 不 足 ， 应 用 性 能 下 降 ， 且 
必须 对 最 新 集群 中 的 所 有 服务 器 进行 更 新 。 

显而易见 ， 这 是 不 可 取 的 ， 因 而 可 以 采用 为 一 种 方案 。 为 此 ，Memcached 实现 方案 通常 采用 一 致 性 
散 列 算法 的 变 体 “来 实现 服务 器 池 变 化 时 所 需 的 更 新 最 小 化 ， 并 实现 键 值 给 定时 由 同一 服务 器 提供 服 
务 的 概率 最 大 化 。 一 致 性 散 列 计算 的 基本 算法 ”可 以 描述 如 下 : 

1) 将 散 列 函数 的 取信 范围 映射 到 圆 上 ， 其 中 最 大 值 以 顺 时 针 方 式 环绕 最 小 值 ; 

2) 为 池 中 的 每 台 服 务 器 赋值 ( 即 圆 上 的 点 ) 作为 其 标识 符 ”; 

3) 为 了 绥 存 键 值 上 的 数据 项 ， 选 择 标识 符 大 于 或 等 于 Hk) 的 服务 器 。 

在 本 章 参 考 文献 [36] 中 ， 为 键 值 天 选择 的 服务 器 称 
H k AREA, That k MAU — BAR a ah WA FF Il 
例如 ， 图 6. 39 给 出 了 包含 3 BMRA AOA, PAR ae 1 
负责 将 键 值 散 列 计算 的 关联 数据 项 缓存 到 6、7、0 和 1; AR 
as 3 负责 将 键 值 散 列 计算 的 关联 数据 项 缓存 到 2 和 3; 服 
Fat 5 负责 将 键 值 散 列 计算 的 关联 数据 项 缓存 到 4 和 5。 

一 致 性 散 列 算法 的 直接 结果 是 ， 服 务 需 的 离开 或 加 入 
只 会 影响 到 其 直接 邻居 。 换 名 话说 ， 当 一 台新 服务 器 p 加 
人 人 池 时 ， 先 前 分 配给 原始 p BR AER AY eS Be MEK E 
新 分 配给 服务 器 p， 而 其 他 服务 融 则 不 受 影响 。 类 似 地 ， 
当 旧 服务 器 p 离开 池 时 ， 先 前 分 配给 它 的 键 值 现在 将 被 重 
新 分 配给 p 的 继任 者 ， 而 其 他 服务 硕 则 不 受 影响 。 在 图 
6. 39 所 示 的 实例 中 ， 添 加 新 服务 器 7 会 导致 将 键 值 6 和 7 
重新 分 配给 新 服务 器 ， 而 删除 服务 希 3 会 导致 将 键 值 2 和 3 
重新 分 配给 服务 厦 5。 





O ”严格 来 说 ， 最 近 不 向 用 的 数据 项 就 是 这 里 所 要 表达 的 意思 ; 最 近 最 少 使 用 的 数据 项 只 有 一 项 。 
O ”可 以 通过 散 列 函数 完成 赋值 ， 该 函数 可 能 与 互 不 同 ， 但 取 值 范围 相同 。 
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基本 算法 允许 服务 器 池 进 行 有 效 扩展 ， 并 为 性 能 进一步 提升 商定 了 坚实 的 基础 。 本 章 参考 文献 
[37] 描述 了 一 种 用 于 在 服务 器 之 间 实 现 更 好 负载 分 配 的 增强 方案 。 

总 而 言 之 ，Memcached 被 证 明 是 一 种 能 够 提升 应 用 性 能 的 有 效 的 可 扩展 机 制 。 它 已 经 广泛 应 用 于 
Facebook, Twitter 和 YouTube 等 高 流量 网 站 。 特 别 是 ，Facebook 部 团 了 数 千 台 Memcached 服务 器 来 支持 


其 社交 网 络 服务 ， 并 创建 了 世界 上 最 大 的 键 值 商 店 ， 每 秒 处 理 超 过 10 亿 条 请 求 ， 并 存储 了 数 万 个 数 
据 项 。 
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本 章 标 题 中 的 第 一 个 单词 是 指 文 持 云 基础 设施 的 运营 、 管 理 和 维护 (OA&M) 的 手段 。 ag 
和 管理 的 做 法 已 经 非常 容易 理解 ， 其 到 部 分 实现 了 标准 化 ， 但 “编排 ”一 词 仍然 有 些 含糊 不 清 ， 
行业 中 滥用 最 多 的 术语 之 一 。 然 而 ， 业 务 流 程 的 概念 对 云 计算 至 关 重 要 。 OEREN 
一 概念 。 

在 19 世纪 和 20 世纪 ， 事 情 更 为 简单 一 些 ” ， 当 时 编排 简单 的 是 指 由 作曲 家 执行 的 任务 ， 为 乐器 合 
Ze (通常 是 交响 乐团 ) 写 乐 谱 。 该 词 还 可 以 指 代 为 管弦 乐队 写 谱 的 音乐 学 科 〈 音 乐 学 校 教授 的 作曲 课 
程 的 一 部 分 )。 该 学 科 记 录 了 各 种 乐 右 (弦乐器 、 木 管乐器、 铜 管乐器 和 打击 乐器 ) 的 各 种 组 合 代 表 性 
音乐 特征 (音域 、 音 色 、 技 术 难 度 和 音调 ) ， 人 们 也 将 该 学 科 称 为 乐曲 研究 ， 它 教 给 入 们 如 何 将 不 同 乐 
器 进行 组 合 或 并 置 ， 以 实现 由 作曲 家 设想 的 音色 和 平衡 。 需 要 注意 的 是 ， a ee 
物理 特性 在 很 大 程度 上 已 经 实现 了 标准 化 ， 且 乐团 演奏 者 已 经 按照 该 标准 进行 了 培训 。 这 使 得 乐曲 演 
奏 相 当 精 确 〈 例 如 ， 标 准 规定 了 哪个 闸 音 易于 在 长 号 上 演 夫 ， See Lee, 男 外 ， 编 
排 本 身 (即将 各 种 乐器 的 音质 加 以 组 合 以 达到 新 效果 的 部 分 ) 除了 列 出 一 些 普 适 原 则 以 外 ， 还 可 以 从 
大 师 的 作品 中 引入 各 种 实例 以 说 明 所 产生 的 音效 。 如 果 人 们 以 这 些 实例 作为 规则 ， 则 他 们 无 法 产生 新 
的 音效 。 然 而 ， 伟 大 的 作曲 家 (特别 是 19 世纪 的 Richard Wagner 以 及 20 世纪 的 Maurice Rarel 和 Igor 
Stravinsky) 通过 发 现 适 合 他 们 各 自 艺术 构想 的 新 疾 而 醒目 的 声音 组 合 ， 在 编排 领域 引发 一 场 单 售 。 一 
且 他 们 的 音乐 广为人知 ， FEBM TES 则 他 们 的 成 果 成 为 教授 编排 的 新 资料 。 我 们 为 感 兴趣 的 读 
者 推荐 一 本 与 编排 有 关 的 优秀 书籍 ”， 至 少 有 一 位 作者 从 阅读 中 受益 菲 浅 。 

云 计 算 中 编排 的 含义 与 音乐 中 编排 的 仿 a 
义 类 似 。 在 云 中 ，“ 乐 器 ”是 前 几 章 所 描述 的 | Game 
资源 。“ 乐 器 ”一 词 既 是 指 物理 资源 (MEIN UD 
机 、 存 储 设备 和 联网 设备 ) ， 又 是 指 软件 资源 
(虚拟 机 管理 程序 和 各 种 操作 系统 )， 所 有 这 
些 资源 都 以 引入 和 文 持 云 服务 为 唯一 目的 进 
行 “ 利 用 ”。NIST (National Institute of Stand- 
and Technology， 美 国 国 家 标准 与 技术 人 研 
究 院 ) 的 两 本 云 架 构 出 版 物 ”” 涉及 这 一 主 
题 ， 并 给 出 如 下 定义 : 

“业务 流程 是 指 部 署 系统 组 件 以 支持 云 提 
供 商 在 安排 、 协 调和 管理 计算 资源 方面 的 活 
动 ， 这 些 活动 旨 在 回 云 消费 者 提供 云 服 务 。 

NIST 云 计算 参考 架构 ”描述 了 业务 流程 
任务 ， 如 图 7. 1 所 示 。 

NIST 的 3 层 模型 代表 了 云 提供 商 涉及 的 
组 件 分 组 。 顶 部 是 用 于 定义 服务 访问 接口 的 | ”图 7.1 业务 流程 (参照 NIST SP 500 -292 文档 ) 
业务 层 。 中 间 层 是 通过 软件 对 物理 计算 资源 进 





O 韦 氏 在 线 词典 将 这 一 术语 首次 使 用 的 时 间 追 SWIA] 1859 年。 
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行 抽象 和 访问 控制 的 资源 抽象 与 控制 层 。 这 里 ， 控 制 问题 与 资源 分 配 、 访 问 控制 和 监控 有 关 。NIST 将 
其 称 为 “将 多 种 底层 物理 资源 及 其 软件 抽象 联系 在 一 起 的 软件 结构 ， 以 支持 资源 池 化 、 动 态 分 配 和 测 
量 服 务 ” 。 堆 栈 底 部 是 物理 资源 层 ， 它 包括 所 有 硬件 资源 一 一 计算 机 、 存 储 组 件 和 网 络 ， 还 有 “设备 资 
源 ， 诸 如 供暖 、 通 风 和 空调 (Heating, Ventilation and Air Conditioning，HVAC) 、 电 力 、 通 信 以 及 其 他 
物理 设备 ”。 

本 章 参考 文献 [3] 中 没有 规定 如 何 整 合 这 些 资源 ， 稍 后 将 在 本 章 提 供 一 些 “ 引 警 盖 式 ”的 观点 
(特别 是 将 在 7. 3 节 中 对 上 述 模型 进行 扩展 ) 。 重 要 的 是 ，NIST 描述 强调 了 云 提供 商 所 执行 的 业务 流程 
和 服务 管理 任务 之 间 的 区 别 。 服 务 管理 包括 “管理 和 运行 云 消 费 者 所 要 求 或 提出 服务 必需 的 所 有 与 服 
务 相 关 的 功能 " 。 这 3 种 服务 管理 类 型 包括 业务 支持 、 服 务 提供 和 配置 以 及 可 移植 性 和 互 操作 性 。 

在 业务 领域 中 ， 支 持 类 型 是 客户 、 合 同和 库存 管理 、 审 计 和 计 费 、 报 告 和 审计 、 定 价 和 评级 等 任 
务 。 云 的 实际 操作 是 服务 提供 和 配置 类 型 的 主题 ， 其 任务 包括 配置 、 资 源 变 更 、 监 控 和 报告 、 计 量 和 
SLA (Service Level Agreement， 服 务 等 级 协议 ) 管理 。 最 后 ， 数 据 传输 、 虚 拟 机 图 像 迁 移 以 及 全 方位 应 
用 与 服务 迁移 可 移植 性 和 互 操 作 性 的 主要 任务 ， 可 以 通过 统一 管理 界面 来 完成 。 

为 了 理解 本 章 实际 涉及 的 内 容 ， 有 必要 对 各 部 分 内 容 进行 区 分 ， 并 分 别 观察 每 部 分 内 容 的 演变 。 

在 本 章 的 7.1 节 中 ， 将 讨论 企业 〈 即 IT) 界 业务 流程 概念 的 演进 ， 其 中 业务 流程 概念 实际 上 是 在 
世纪 之 交 诞 生 的 。 

在 7.2 节 中 ， 回 顾 了 网 络 和 运营 管理 学 科 的 发 展 情 况 ， 重 点 介绍 了 运营 支持 系统 的 演进 。 需 要 注 
意 的 是 ， 除 了 “网 络 ” 一 词 外 ， 网 络 管理 是 一 种 纯 软 件 问 题 。 网 络 管理 既 适 用 于 企业 界 ， 又 适用 于 电 
信行 业 ， 但 它 最 初 源 于 电信 世界 。 在 这 一 讨论 背景 下 ， 还 将 介绍 几 个 广泛 实施 的 标准 。 

7.3 节 综 合 了 云 情境 中 的 上 述 概念 。 在 这 一 情境 中 ， 云 提供 商 〈 自 然 需 要 自己 的 工具 来 编排 这 些 服 
务 的 业务 流程 ) 回 企 业 提 供 托管 服务 (以 及 适当 的 业务 流程 工具 ) 。 可 以 预期 ， 这 里 并 未 太 多 涉及 历 
史 ， 更 不 用 说 标准 。 但 是 在 撰写 本 书 时 ， 历 史 正 在 创造 中 ， 且 通过 多 个 开放 源 代码 举措 加 快 了 历史 
进程 ! 

7.47 (mal) 涉及 身份 和 访问 管理 主题 。 先 前 讨论 过 ， 现 在 再 次 重复 : 特别 是 许多 人 将 整体 
安全 和 身份 管理 的 成 功 看 作 是 最 重要 的 事情 。 当 然 ， 十 多 年 来 一 直 从 事 这 一 课题 研究 的 作者 们 非常 赞 
成 这 一 观点 。 


7.1 企业 内 部 的 业务 流程 


这 一 术语 的 起 源 可 以 追溯 到 20 世纪 初期 开展 的 信息 技术 运动 。 我 们 将 这 一 运动 称 为 面向 服务 的 架 
构 (Service - Oriented Architecture，SOA ) 。 正 如 稍 后 在 本 节 将 看 到 的 那样 ，SOA 在 2009 年 “死亡 ” 
(至 少 SOA 是 从 此 时 开始 衰落 的 ) ， 但 总 体 理念 和 运动 目标 仍然 有 效 而 且 还 在 执行 ! 

主要 动机 是 通过 利用 模块 化 并 支持 分 布 式 处 理 来 打破 开发 和 维护 整体 式 应 用 ”的 旧 模 式 。 

当然 ， 至 少 在 20 that 60 年代， 模块 化 一 直 是 软件 的 圣杯 ， 且 在 过 去 几 年 中 已 经 完成 了 许多 工作 。 
迄今 为 止 ， 所 有 结构 化 高 级 编程 语言 的 祖先 一 一 ALGOL - 60 为 模块 提供 了 拥有 独立 变量 命名 功能 的 机 
制 ， 使 其 只 能 通过 明确 定义 的 、 基 于 参数 的 接口 实现 相互 交互 。 一 旦 定义 了 接口 ， 则 程序 员 可 以 独立 
开发 这 些 模 块 〈 他 们 甚至 可 能 从 不 需要 彼此 交谈 ) 。 然 后 ， 可 以 对 这 些 模块 进行 编译 ， 将 生成 的 对 象 代 
码 存储 在 库 中 ， 并 最 终 将 与 主线 应 用 代码 链接 。 这 里 需要 强调 的 是 ， 只 要 两 个 模块 都 遵循 相同 的 接口 ， 
则 一 个 功能 更 好 的 模块 可 能 随时 替换 另 一 个 模块 。 

在 20 世纪 80 年 代 ， 这 种 模式 的 演变 分 为 3 个 独立 的 发 展 方向 ， 从 而 影响 了 业务 流程 的 理念 。 

由 UNIX 操作 系统 shell 接口 孕育 的 第 1 个 发 展 方向 ， 为 程序 员 提 供 了 用 于 执行 一 套 独 立 程序 的 强 
有 力 手段 ， 而 无 须 编译 或 与 主线 代码 建立 链接 ， 甚 至 可 以 将 这 些 程序 进行 整理 ， 使 某 个 程序 的 输出 可 
以 载 人 到 男 一 个 程序 (通过 管道 接口 )。 需 要 强调 的 是 , 与 先前 其 他 操作 系统 提供 的 作业 控制 语言 
(Job Control Language，JCL) 环境 不 同 ，shell 环境 实际 上 是 一 个 成 熟 的 协作 编程 平台 。 任 何人 都 可 以 编 
写 一 条 新 “命令 ”并 对 其 进行 编译 ， 然 后 将 它 提供 给 其 他 人 。 此 外 ， 只 要 将 不 同 模块 存储 在 不 同 目录 


O ”本 节 讨 论 的 任何 内 容 都 与 应 用 开发 和 最 终 编程 有 关 。 
166 


第 7 章 _ 云 内 部 的 运营 。 管 理 与 业务 流程 编排 


中 ， 则 同一 “命令 ”名 可 以 在 这 些 模块 之 间 进 行 共享 。 用 于 获取 模块 的 目录 集 可 由 一 个 环境 变量 来 表 
示 ， 该 变量 可 以 即时 进行 更 改 ” 。 另 外 ，shell 程序 在 变更 时 不 需要 进行 重新 编译 ， 因 为 它们 压根 儿 不 需 
要 进行 编译 一 一 需要 对 其 进行 解释 。 最 后 ，shell 脚本 中 调用 的 模块 可 以 用 任何 语言 (包括 shell 本 身 ) 
编写 。 

第 2 个 发 展 方向 称 为 面向 对 象 编 程 ， 它 大 大 简化 了 模块 〈 以 前 被 认为 是 过 程 ) 的 接口 。 而 先前 程 
序 员 需要 了 解 过 程 库 运 行 所 需 的 数据 结构 的 每 个 细节 ,采用 面向 对 象 编程 技术 ,将 数据 结构 与 执行 操 
作 的 方法 〈 即 过 程 ) 一 起 进行 了 封装 。 方 法 只 对 程序 员 可 见 ， 因 而 程序 员 不 再 需要 关心 数据 结构 。 数 
据 结构 可 能 会 相当 复杂 ”， 但 使 用 对 象 的 程序 员 不 需要 理解 这 种 复杂 性 ; 只 有 那些 能 够 实现 对 象 类 的 程 
FR (相当 于 用 于 定义 数据 结构 的 类 型 ) 才 需 要 这 人 么 做 。 实 际 上 ， 可 以 将 针对 给 定 类 的 实例 化 对 象 看 
作 是 服务 。 第 一 种 面向 对 象 的 语言 一 -SIMULA， 实 际 上 是 在 1967 年 开发 的 (与 ALGOL -67 的 开发 
时 间 大 致 相同 ) , H. SIMULA 是 ALGOL 的 一 个 自然 超 集 ， 仅 用 于 模拟 系统 的 目的 〈 实 际 上 ， 它 已 用 于 
模拟 复杂 的 硬件 系统 ) 。 由 于 每 个 系统 都 是 由 “ 黑 盒子 ”组 成 的 一 一 同一 种 类 型 (或 按照 面向 对 象 的 
说 法 : 类 ) ， 因 而 这 种 范式 是 与 生 俱 来 的 。 当 然 ，SIMULA 的 目标 是 建 模 ， 而 不 是 有 效 的 代码 重用 。 将 
SIMULA 标准 化 的 工作 花 了 约 20 年 ， 该 项 任务 由 SIMULA 标准 化 小 组 1 负责 实施 ， 并 于 1986 年 完成 。 
当 SIMULA 标准 化 工作 结束 时 ，1983 年 ， 贝 尔 实验 室 研究 人 员 Bjarne Stroustrup 博士 发 布 了 一 种 新 语 
言 一 一 C+ +, Bjarne 自 1979 年 以 来 一 直 在 默默 工作 。C + + 从 SIMULA 借鉴 了 很 多 东西 ， 但 它 是 基于 
( 且 实 际 上 是 编译 到 ) C 语言 的 ， 而 C 语言 是 设计 作为 系统 编程 语言 的 (或 者 换 句 话说 ， 它 支持 程序 员 
尽量 走 捷径 ， 以 便 与 现 有 硬件 紧密 合作 ) 。 正 是 这 种 效率 (结合 面向 对 象 范例 的 完全 实现 ) 使 得 C+ + 
倍 受 欢迎 。 国 际 标准 化 组 织 (International Organization for Standardization, ISO) 已 经 批准 将 ISO/IEC 
14882 确定 为 C+ + 标准 。1998 年 ， 国 际 标准 化 组 织 发 布 了 一 个 早期 版 本 ， 现 行 标准 是 ISO/IEC 14882 : 
2011 ， 业 界 将 其 称 为 C + +11。 关 于 这 个 问题 ， 强 烈 推 荐 一 本 由 C + + 发明 人 和 首位 开发 人 员 出 版 的 好 
书 ”。C + + 也 是 其 他 众多 流行 的 解释 型 面向 对 象 语言 (尤其 是 Java) 的 先驱 。Java 主要 设计 用 于 迅猛 
发 展 的 轻 量 级 应 用 开发 (在 系统 编程 方面 ，C + + 仍然 占据 统治 地 位 )。 

从 程序 员 的 角度 来 看 ， 新 型 面向 对 象 的 语言 已 经 实现 了 参数 多 态 性 [一 种 支持 程序 员 使 用 灵活 数 
量 参数 和 (在 某 种 程度 上 ) 灵活 类 型 参数 来 定义 子 程序 的 特征 ]。 这 大 大 提高 了 使 用 服务 的 程序 与 提供 
服务 的 程序 之 间 的 接口 灵活 性 。 我 们 将 此 类 接口 称 为 应 用 编程 接口 (Application Programming Interface, 
API) 。 

第 3 个 发 展 方向 是 分 布 式 计算 。 强 烈 推 荐 本 章 参考 文献 [5] 这 本 内 容 丰 富 的 综合 类 专著 。 作 为 发 
展 方 向 的 一 部 分 ， 人 们 围绕 远程 执行 方式 开展 了 大 量 研究 和 标准 化 工作 。 这 里 ， 主 要 目的 是 使 程序 员 
避 开 跟踪 计算 资源 实际 物理 分 布 的 复杂 〈 且 一 般 非 常 乏 味 ) 细节 的 困扰 。 为 此 ， 程序 员 其 至 不 需要 知 
道 计算 资源 的 实际 物理 分 布 情况 。 为 实用 起 见 ，API 必须 与 操作 系统 或 任何 应 用 库 已 提供 的 API 完全 一 
致 ， 此 类 接口 属于 过 程 调用 接口 (或 在 面向 对 象 的 模型 中 ， 此 类 接口 属于 方法 调用 接口 ) 。 

鉴于 此 目标 ， 人 们 开发 出 了 远程 过 程 调用 (Remote Procedure Call, RPC) 模型 。 在 这 一 模型 中 ， 
程序 员 编写 一 个 本 地 过 程 调用 (除了 本 地 程序 调用 之 外 ， 还 有 其 他 什么 调用 呢 ?) 但 是 ， 底 层 软 件 通过 
应 用 协议 将 调用 “传输 ”给 另 一 台 机 器 。 该 模型 主要 适用 于 客户 端 / 服 务 器 的 交互 。 在 此 过 程 中 ， 客 户 
端 程序 调用 服务 器 上 的 “远程 ”过 程 。 这 里 的 问题 是 无 足 轻重 的 (考虑 通过 地 址 将 参数 从 客户 端 传输 
到 服务 器 ， 或 者 肯 泪 恢复 ， 特 别 是 在 服务 需 疹 ) o 

除了 涵盖 并 发 执行 的 算法 部 分 之 外 ， 人 们 已 经 开发 出 由 跨 机 器 对 象 提供 的 、 用 于 广播 服务 "以 及 用 
于 访问 此 类 服务 的 工业 基础 设施 。 为 此 ， 人 们 已 经 开发 出 多 种 基础 设施 ， 因 为 涉及 诸多 标准 化 组 织 和 


〇 ”遗憾 的 是 ， 协 作 混 搭 的 易 实现 性 与 安全 性 是 背道而驰 的 。 便 于 实现 协作 的 非常 巧妙 的 机 制 引 入 了 重大 安全 问题 。 某 个 人 
编写 一 个 致命 程序 (许多 人 实际 上 已 经 这 么 做 了 ) ， 赋 予 它 一 个 常用 名 称 ， 并 将 其 放 在 由 环境 变量 PATH 指定 的 目录 中 。 
除非 每 个 模块 重 置 此 变量 (或 在 进程 开始 之 前 对 模块 仔细 检查 ) ， 和 否则 不 敢 保证 它 调用 的 模块 是 它们 应 调用 的 。 同 样 的 
问题 仍然 存在 于 支持 同 构 模 块 的 框架 中 。 
O 考虑 一 个 复数 相 乘 的 过 程 ， 该 过 程 支持 每 个 参数 要 么 表示 为 (Re，Im)， 要 么 (以 三 角形 式 ) RNA KR, HA), K 
样 当 程序 员 需 要 时 ， 他 们 可 以 混搭 使 用 表达 式 。 
根据 前 面 的 脚注 ， 复数 运 算 〈 加 法 、 乘 法 、 除 法 等 ) 就 是 此 类 服务 的 一 种 实例 。 
又 一 个 被 滥用 的 术语 。 从 严格 意义 上 讲 ， 它 表示 给 定 服务 器 上 所 支持 的 方法 ( 即 对 象 上 的 操作 ) o 
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论坛 。 这 里 仅 举 几 例 ， 这 些 标 准 化 组 织 和 论坛 包括 ISO/IEC, ITU -T (International Telecommunications 
Union Telecommunication Standardization Sector， 国 际 电信 联盟 电信 标准 分 局 ) 、 对 象 管理 组 (Object Man- 
agement Group, OMG) 以 及 (后 来 伴随 万 维 网 成 功 而 成 立 的 ) 万 维 网 联盟 (World Wide Web Consorti- 
um, W3C) 和 结构 化 信息 标准 促进 组 织 (Organization for the Advancement of Structured Information Stand- 
ards, OASIS)”, 

20 世纪 90 年 代 中 期 形成 的 通用 模型 如 图 7. 2 所 示 。 


人 s, Z 





这 里 ， 客户 端 程序 可 以 远程 调用 跨 基础 设施 的 各 种 对 象 方法 。 基础 设施 可 能 包括 运行 不 同 操作 系 
统 的 不 同 机 器 。“ 物 理 ” 人 性质 的 唯一 要 求 是 这 些 计算 机 能 够 通过 数据 网 络 进行 互 连 。 

当然 ， 每 个 对 象 库 都 可 以 用 上 自己 的 语言 来 实现 。 对 于 原始 语言 和 要 执行 相应 代码 的 操作 系统 来 说 ， 
远程 调用 机 制 大 体 上 是 不 变 的 。 这 可 以 通过 中 间 件 来 实现 ， 因 为 中 间 件 能 够 提供 自己 的 原 语 (本 地 
API) 来 将 编程 环境 与 操作 系统 隅 离开 来 ， 从 而 确保 通用 可 移植 性 的 实现 。 由 于 环境 还 文 持 对 象 库 发 布 
其 服务 ， 因 而 一 些 模型 包含 了 服务 代理 的 概念 。 服 务 代 理 的 工作 是 负责 匹配 客户 端 服务 需求 与 各 种 服 
务 提供 商 的 库 。 

20 世纪 90 年 代 中 期 ， 当 人 们 都 在 关注 互联 网 和 万 维 网 时 ， 出 现 了 一 种 令 人 不 安 的 发 展 势头 ， 即 大 
家 开始 拒绝 接受 先前 已 经 完成 的 标准 〈 以 及 先前 已 经 完成 的 支持 基础 设施 的 大 多 数 标准 ) 。 这 对 于 从 事 
标准 化 研究 的 人 来 说 并 不 一 定 是 坏事 ， 他 们 突然 得 到 了 令 人 兴奋 的 新 工作 ; 对 于 那些 如 雨后春笋 般 迅 
速成 长 起 来 并 蔡 换 掉 旧 标准 化 组 织 的 标准 化 论坛 来 说 也 没有 坏处 。 这 些 旧 标准 化 组 织 始 终 基 于 几乎 一 
夜 之 间 被 打上 “ 旧 ” 标 签 的 技术 人 努 力 完成 标准 的 制定 。 对 于 那些 在 如 何 “简化 ”编程 方面 有 着 新 观念 
的 人 也 是 有 好 处 的 ， 因 为 时 尚 潮流 推动 许多 未 经 检验 的 想法 进入 标准 。 技 术 在 快速 发 展 ， 诸 多 公司 
(以 及 依赖 于 这 些 公 司 的 论坛 ) 面临 着 风险 。 最 终 ， 当 泡沫 破裂 时 ， 它 们 被 历史 所 遗弃 ， 但 即使 对 于 技 
术 本 身 ， 未 经 检验 技术 的 快速 发 展 导 致 的 后 果 也 是 毁灭 性 的 ! 

问题 的 根源 是 对 分 布 式 处 理 技术 新 瀛 潮 的 真正 膜拜 : 人 们 相信 所 有 应 用 层 协 议 必 须 是 基于 ASCI 
(American Standard Code for Information Interchange， 美 国信 息 交 换 标准 代码 ) 文本 的 。 事 实 上， 简单 邮 
件 传 输 协 议 (Simple Mail Transfer Protocol, SMTP) 的 确 是 基于 ASCII 文本 的 ， 这 在 大 多 数 终端 属于 电 
传 类 型 的 时 代 是 非常 先进 的 ， 且 使 用 ASCI 文本 有 助 于 测试 和 调试 〈 当 然 也 有 利于 黑客 人 侵 ， 虽 然 这 
绝对 不 是 设计 目标 !) 。 类 似 地 ，Web 的 主要 协议 一 一 超 文 本 传输 协议 (HyperText Transfer Protocol, HT- 
TP) ， 最 初 只 需 处 理 采 用 ASCI 编码 (HTML) 的 文件 传输 问题 。 由 于 协议 相关 数据 量 比 有 效 载荷 小 ， 


O 在 电信 行业 ， 电 信和 信息 网 络 架 构 协 会 (Telecommunications Information Networking Architecture Consortium, TINA - C) 在 
1993 ~ 2000 年 间 开 展 了 一 系列 标准 化 和 研发 工作 ， 贝 尔 实验 室 的 作者 们 为 此 做 出 了 重大 贡献 。 本 章 参 考 文献 [4] 提 
到 ，TINA - C 的 结果 在 业界 引发 了 人 们 的 极 大 兴趣 。 当 前 ， 有 一 本 专门 介绍 TINA - C AB 。 
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因而 基于 文本 的 编码 非常 合理 。 但 这 些 看 似 必要 的 决策 (或 者 至 少 在 SMTP 和 HTTP 开发 时 都 是 正当 
的 ) 后 来 英明 其 妙 地 被 解读 为 所 有 互联 网 应 用 协议 都 必须 采用 文本 编码 的 准则 。 该 准则 很 快 成 为 一 种 
信仰 ， 并 加 入 了 其 他 虚假 信仰 (如 IPv6 比 IPv4 更 “安全 ”) 。 随 着 应 用 协议 的 增长 ， 使 用 该 准则 变 得 越 
来 越 范 雇 。 不 仅 数 据 量 巨 大 ， 而 且 对 实时 协议 来 说 ， 解 析 数 据 变 成 了 一 个 大 问题 。 事 实 上 ,IETF (In- 
ternet Engineering Task Force， 互 联网 工程 任务 组 ) 的 HTTPbis 工作 组 当前 正在 开发 的 新 版 HTTP“" 使 用 
了 二 进 制 编码 ， 并 针对 这 一 变化 提供 如 下 说 明 :“-... ... HTTP/1. 1 报头 域 通常 是 重复 和 元 长 的 ， 除 了 
生成 更 多 或 更 大 的 网 络 数据 包 之 外 ， 还 可 能 会 导致 小 型 初始 TCP 拥塞 窗口 快速 填充 ... ... 最 后 ， 这 种 
封装 还 通过 使 用 二 进 制 消 息 分 帧 来 支持 消息 的 可 扩展 处 理 ”。 

文本 编码 对 面向 对 和 象 的 分 布 式 计算 的 影响 首先 体现 在 放弃 了 抽象 语法 标记 (ASN.1) 编码 标准 
( 它 需 要 编译 成 二 进 制 格式 ”) ， 转 而 支持 可 扩展 标记 语言 (Extensible Markup Language, XML)° XML 
本 身 不 存在 任何 错误 ， 但 滥用 它 可 能 会 产生 灾难 性 后 果 ”。 尽 管 HTTP 本 身 提供 了 远程 API 访问 机 制 ， 
但 W3C 决定 开发 一 种 运行 在 HTTP 之 上 的 RPC 机 制 。 因 此 ,一 种 新 协议 一 一 SOAP (Simple Object Ac- 
cess Protocol, ， 简 单 对 象 访问 协议 ) 应 运 而 生 。 事 实证 明 ， “简单 ”这 一 单词 并 不 准确 ， 因 而 在 SOAP 
1. 2 版 本 中 不 再 使 用 首 字 母 缩 略 词 的 展开 版 。SOAP 变 得 相当 时 尚 ， 且 人 们 在 SOAP 之 上 已 经 开发 出 了 
复杂 的 SOA 基础 设施 。 

BIA SOAP 过 去 〈 且 现在 仍然 ) 被 用 作 远 程 过 程 调用 机 制 ， 但 XML 格式 的 序列 化 使 其 执行 效果 要 
比 OMG 开发 的 通用 对 象 请 求 代 理 体系 结构 (Common Object Request Broker Architecture, CORBA) 中 的 
RPC 要 差 得 多 。SOAP 艇 入 二 进 制 对 象 时 单独 需要 额外 工作 (和 额外 标准 )， 但 已 证 明 更 为 糟糕 的 事实 
Æ, HF SOAP 采用 HTTP 作为 传输 协议 ， 因 而 它 面临 着 与 HTTP 直接 竞争 的 问题 。 严 格 来 说 ， 虽然 
SOAP 运行 在 HTTP 之 上 不 是 必需 的 ,但 是 默认 SOAP/HTTP 绑 定 成 功 ， 部 分 原因 是 这 样 可 以 确保 穿越 
防火 墙 〈 读 者 可 能 还 记得 前 面 提 到 的 4 月 1 日 发 布 的 RFC， 这 是 一 个 相当 愤世嫉俗 的 笑话 实例 ， 却 在 
转眼 间 成 为 现实 ) 。 结 果 不 仅仅 是 政治 对 抗 (没有 人 希望 他 或 她 的 应 用 协议 仅 是 他 人 应 用 协议 的 一 种 传 
输 工 具 !) ， 而 且 也 是 一 种 困境 : 要 么 接受 HTTP 严格 的 客户 端 /服务 器 结构 〈 在 这 种 架构 中 ， 每 次 通信 
均 必须 由 客户 端 启动 ， 从 而 使 得 服务 器 通知 无 法 实现 ”) ， 要 么 发 明 越 来 越 多 的 机 制 来 弥补 这 一 限制 条 
fF. 但是， 一 般 来 说 ,不 利于 RPC 方法 (特别 是 SOAP) 的 最 重要 论据 就 是 作为 一 种 概念 的 远程 过 程 
调用 无 法 轻易 适应 Web 结构 ， 这 涉及 midboxes (代理 和 缓存 ) 。 事 实 上 ， 业 界 发 明了 更 多 的 机 制 ， 增 加 
了 更 多 的 复杂 性 。 

最 后 ， 业 界 曾 使 用 被 称 为 表示 状态 转移 (Representation State Transfer, REST) 的 “本 地 ”Web 学 
科 组 织 过 一 次 反对 SOAP 的 活动 。REST API 至 少 可 获得 Web 访问 权限 。 本 书 将 在 附录 A 中 详细 讨论 
REST 原理 。 目 前 ， 考虑 到 REST API 中 的 API (这 是 一 个 有 些 使 用 不 够 妥当 的 名 称 ， 因 为 它 不 涉及 过 程 
调用 本 身 ) ， 我 们 只 提 及 转向 REST 风格 变 得 非常 必要 。 相 反 ， 程序 员 编 写 应 用 层 协 议 数据 单元 
(PDU)， 为 了 实现 所 有 实际 用 途 ， 采取 的 协议 应 当 是 HTTP。 正 如 稍 后 会 看 到 的 ,不 存在 REST 标准 ， 
REST 只 是 一 种 风格 。 

谈 到 标准 ，CORBA 已 经 拥有 ，SOAP 和 其 他 几 项 技术 也 有 标准 ,但 头条 新 闻 较 少 。 人 们 不 应 忘记 
KES + 塔 南 鲍 姆 (Andrew Tanenbaum) 的 格言 : “标准 的 好 处 是 让 你 拥有 更 多 的 选择 !1” 

在 REST 与 RPC 的 情况 下 ， 由 于 在 企业 中 出 现 的 3 层 架 构 得 到 广泛 实施 ， 并 成 为 提供 软件 即 服 务 
(Software as a Service, SaaS) 的 首选 模式 ， 因 而 劳动 分 工 非常 简单 。 在 这 一 模型 中 , 第 1 级 (客户 端 ) 


O ASN.1 BÆ ITU -T 建 议 书 的 X. 680 ~ X. 695 系列 中 进行 了 定义 ，ASN. 1 是 20 世纪 90 年 代 初 开发 的 ， 则 在 克服 协议 定义 
中 指定 位 串 的 问题 。 使 用 ASN. 1 ， 编 码 方式 在 PASCAL 类 数据 结构 中 指定 ， 然 后 根据 二 进 制 编码 规则 进行 编译 。 实 际 
E, 编译 是 一 个 额外 步骤 ,但 总 体 方案 提供 了 一 种 高 效 二 进 制 编码 方式 。 

O W3C 已 开发 出 了 XML。 它 是 一 种 基于 文本 的 通用 编码 方案 。 在 使 用 不 合理 的 情况 下 ,会 生成 “元 长 ”的 输出 ,但 没有 
人 定义 怎样 才 算是 合理 使 用 XML。 

是 ”这 里 将 给 出 的 是 作者 的 亲身 经 历 ， 自 2003 年 以 来 ,马丁 汤姆 森 一 直 使 用 一 种 流行 音乐 编写 程序 。 这 种 将 乐谱 编辑 与 
即时 播放 结合 起 来 的 工具 非常 有 用 ， 但 自从 使 用 XML 来 编码 声音 的 新 版 本 开发 出 来 后 ， 该 工具 运行 速度 非常 慢 (有 时 
达到 无 法 响应 的 地 步 ) ， 从 而 导致 系统 经 常 月 省。 最终 ， 作 者 不 得 不 购买 一 台 更 强大 、 更 昂贵 的 计算 机 ， 来 确保 能 够 使 
用 以 前 版 本 中 完美 运行 的 相同 功能 。 

O ”想象 一 下 使 用 轮 询 机 制 而 不 是 中 断 机 制 。 
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负责 发 布 基于 HTTP 的 查询 , 第 2 级 (服务器) 负责 提供 业务 流程 逻辑 和 数据 访问 ， 而 第 3 级 〈 通 党 
是 一 组 运行 数据 库 软件 的 主机 ) 负责 提供 实际 数据 。 客 户 端 使 用 的 是 REST 范例 来 访问 服务 交付 基础 设 
施 的 前 端 (第 2 级 )， 而 后 端 通信 和 则 可 以 使 用 RPC 和 其 他 分 布 式 处 理 机 制 。 

在 图 7.3 所 示 的 实例 中 ， 客 户 端 请 求 来 自 于 第 2 层 服务 器 的 特定 座 员 的 工资 单 存 根 。 反 过 来 ， 服 务 
器 在 查询 过 包含 工资 单 记 录 和 考勤 报告 的 公司 数据 库 后 生成 表单 。 当 然 ， 该 行为 只 有 在 对 请 求 了 该 信 
息 的 用 户 进行 认证 并 确保 授权 用 户 接收 后 才能 执行 。 另 一 个 例子 是 当前 无 处 不 在 的 基于 Web 的 电子 邮 
件 服务 。Web 客户 端 与 第 2 级 服务 需 采 用 的 是 REST 风格 ， 而 第 2 级 服务 器 使 用 实际 的 邮件 客户 闪 协 议 
[A] SMTP 邮件 服务 需 发 送 电子 邮件 ， 并 接收 来 目 SMTP 邮件 服务 融 的 电子 邮件 。 





运 今 为 止 ， 除 了 苋 争 标准 和 非 互 通 实现 方案 之 外 ， 架 构 和 机 制 所 带 来 的 模块 化 优势 是 显而易见 的 : 
没有 什么 能 比 提供 一 批 即 用 型 执行 业务 模块 的 基础 设施 更 加 模块 化 ， 这 些 业 务 模块 超越 一 切 ， 可 以 从 
任何 地 方 调用 。 但 它 的 承诺 更 进一步 ， 有 望 通过 降低 编程 难度 来 降低 IT 成 本 ， 以 支持 定义 业务 的 那些 
人 来 编程 实现 ， 从 而 消除 他 们 对 机 构 内 部 专业 软件 开发 的 依赖 。 

部 现 承 诺 的 业界 努力 正在 以 SOA 的 形式 呈现 ， 而 SOA 中 引入 了 业务 流程 这 一 术语 。 

7. 1. 1 面向 服务 的 架构 t*r 

首先 注意 到 ， 业 界 对 SOA 的 含义 存在 诸多 误解 。 托 马 斯 . 埃 尔 (Thomas El) 在 其 权威 专著 ”的 
开头 写 道 :“ 在 我 印象 中 ， 没 有 任何 其 他 术语 比 “ 面 回 服 务 ” 更 易 引 起 混 清 。 其 明显 的 歧义 已 经 导致 供 
应 商 、 开 专业 人 员 和 媒体 宣称 自己 的 解释 是 正确 的 。 当 然 ， 这 使 得 准确 把 握 标 签 为 “面向 服务 ”技术 
架构 的 含义 更 加 困难 。 

这 正 是 问题 所 在 : 如 何 解释 SOA。 当 然 ， 人 们 老生 常 谈 的 是 ， 愿 景 ( 在 SOA 的 情形 中 ,愿景 是 在 
分 布 式 计 算 平 台 上 远程 执行 API 定义 的 服务 ) 能 够 以 不 同方 式 实现 ， 这 不 一 定 需 要 彼此 之 间 相 互 作用 。 
然而 ,一 旦 发 现 人 们 对 某 件 事 情 进 行 了 详细 规定 以 确保 解释 唯一 ， 则 它 有 可 能 冒 着 被 贴 上 “实现 方案 ” 
标签 的 危险 。 

为 此 ，SOA 规范 正在 持续 制定 。 首 先 ，W3C 生成 了 用 于 将 网 络 服 务 描述 为 一 组 端点 的 基于 XML 的 
Web 服务 描述 语言 (Web Services Description Language, WSDL) ， 这 些 端点 运行 于 包含 面向 文档 或 面向 
过 程 的 消息 之 上 。“WSDL 应 当 是 抽象 的 、 可 扩展 的 ， 这 样 它 可 以 绑 定 到 任何 协议 上 ， 但 该 规范 重点 关 
注 一 次 绑 定 上 一 一 尤其 是 在 HITP 的 子 集 上 与 SOAP 1. 1 进行 绑 定 。 

下 一 个 必要 的 SOA 组 件 〈 文 持 发 布 和 后 续 发 现 的 注册 表 ) 标准 是 由 OASIS 以 统一 描述 、 发 现 和 集 
成 (Universal Description, Discovery and Integration, UDDI) 标准 的 形式 (也 能 以 基于 XML 的 形式 ) F 
发 的 。 

然而 ,为 一 组 SOA 组 件 涉 及 服务 质量 〈 在 这 种 情境 中 ， 这 一 概念 与 数据 通信 中 的 QoS 无 关 ) 问 
题 ， 它 还 包括 一 组 与 安全 性 [建立 在 OASIS 安全 断言 标记 语言 (Security Assertion Markup Language , 
SAML) 标准 之 上 ]、 可 靠 性 、 策 略 断 言 和 业务 流程 本 身 有 关 的 参数 。 后 者 的 标准 一 一 Web 服务 业务 流 
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程 执行 语言 (Web Services Business Process Execution Language，WSBPEL) 是 由 OASIS 根据 IBM、 微 软 
和 BEA 共同 努力 制定 的 早期 规范 生成 的 ， 并 受到 IBM Web 服务 流程 语言 (Web Services Flow Language, 
WSFL) 和 微软 XLANG 的 启发 。 

简 而 言 之 ，WSBPEL 使 用 XML 编码 工具 来 指定 业务 流程 要 求 ， 其 方式 类 似 于 专门 编程 语言 中 指定 
并 发 进程 执行 所 采用 的 方式 。 两 者 都 提供 了 用 于 描述 并 行 活动 和 处 理 异 常情 况 的 工具 。 人 们 针对 管理 
和 协调 问题 还 制定 了 一 些 其 他 Web 服务 规范 ， 并 将 其 作为 广义 服务 质量 学 科 的 组 成 部 分 。 

遗憾 的 是 ，SOA 的 努力 结果 并 未 达到 预期 。 到 2005 年 底 ，UDDI 标准 只 有 400 多 页 一 一 只 有 几 个 开 
发 者 有 时 间 来 处 理 这 些 问 题 ， 因 为 这 些 规范 充斥 着 不 必要 的 新 术语 ,许多 标准 化 文档 也 是 如 此 。2005 
年 12 H, (SOA 世界 》 杂 志 发 表 了 一 篇 文章 ， 对 IBM、 微 软 和 SAP 关闭 其 UDDI 注册 管理 机 构 的 决定 进 
行 了 评论 。 

2009 年 1 月 9 日， 伯 顿 集团 分 析 师 安妮 托马斯 ， 马 内 斯 (Anne Thomas Manes) 在 其 博客 中 写 了 
一 则 说 明 ， 宣 布 SOA 已 “ 死 " 。 文 章 援引 了 经 济 衰退 的 影响 〈 以 及 开 组 织 拒绝 向 SOA 投入 更 多 资金 的 
现实 ) ， 马 内 斯 女士 强调 :“SOA 疲劳 已 经 转变 为 SOA 幻想 。 商 界 人 士 不 再 认为 ，SOA 将 会 带 来 惊人 的 
收益 。” 虽 然 博文 并 无 嘲讽 之 意 一 一 但 它 将 此 种 情形 描述 为 “IT 行业 的 悲剧 ”， 因 为 “面向 服务 是 数据 
和 业务 流程 快速 整合 的 先决 条 件 ” ， 且 表达 了 为 SOA “EFE” Web 混搭 和 SaaS 开发 面向 服务 的 
需求 。 为 此 ， 博 文 实际 上 暗示 SOA 这 一 术语 已 死 ， 而 “面向 服务 架构 的 需求 要 比 以 往 任何 时 候 都 要 强 
i 

这 是 当时 行业 的 普遍 看 法 。 当 某 个 作者 使 用 Coogle 搜索 “SOA 为 什么 失败 ”时 ， 可 以 得 到 超过 
300 万 个 结果 。 在 业务 方面 ， 人 们 将 责任 归咎 于 开行 业 缺 乏 变革 的 决心 。 反 过 来 ， 商 界 人 士 又 指责 
SOA 的 支持 者 未 能 充分 表达 出 SOA 对 业务 的 重要 性 。“ 人 才 短 缺 ” 是 另 一 种 解释 ， 当 然 还 有 更 多 的 
解释 。 

在 我 们 看 来 ，SOA 的 历史 与 20 世纪 80 年 代 后 期 的 OSI 历史 类 似 。 事 实 上 ，0SI 和 SOA 的 命运 至 少 
在 3 个 方面 非常 相似 ， 其 中 之 一 就 是 二 者 都 产生 了 合理 的 隐喻 和 基础 架构 ， 并 在 时 间 的 考验 下 幸存 下 
来 。 第 二 个 相似 之 处 是 OSI 和 SOA 标准 都 受到 互联 网 社团 的 挑战 。 正 当 人 们 宣告 基于 SOAP 的 SOA 死 
TAY, REST 范例 正在 复苏 。 第 三 个 相似 之 处 是 事情 完成 方式 的 根本 变化 : 互联 网 连接 的 专用 网 和 互联 
网 支持 下 的 组 网 部 分 外 包 ; 以 及 云 文 持 下 IT 服务 外 包 的 出 现 。 

4 年 后 ， 在 《信息 世界 》 杂 志 的 一 篇 文章 中 ， 大 卫 ' 林 迪 卡 姆 (David Linthicum) 指出 ，SOA 实践 
在 云 计算 领域 中 是 绝对 必要 的 。 也 许 21 世纪 SOA 面临 的 问题 是 SOA 具体 解决 方案 的 问题 。 此 外 ， 前 
面 提 到 的 SOA 与 企业 内 的 应 用 开发 有 关 。 在 云 情境 下 ， 需要 一 个 更 为 宽泛 的 定义 。 这 就 是 在 本 书 中 选 
择 不 对 SOA 进行 详细 描述 的 原因 。 工 作 流 就 是 入 存 的 SOA 主要 概念 之 一 。 
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在 描述 某 项 任务 〈 任 意 任 务 ) 时 ， 人 们 可 能 会 列 出 所 有 涉及 任务 完成 的 活动 。 其 中 的 某 些 活动 可 
能 并 行进 行 ， 其 他 活动 需要 等 待 先行 活动 完成 后 再 开始 执行 。 工 作 流 是 一 种 用 于 定义 和 排列 任务 中 所 
有 活动 的 规范 。 自 然 地 ， 为 了 实现 分 布 式 系统 中 任务 的 自动 化 ， 必 须 对 其 工作 流 进 行 定 义 ， 以 确保 任 
务 在 分 布 式 环境 中 可 执行 。 

在 某 种 程度 上 ， 计算 的 整个 开发 是 基于 工作 流 的 。 硬 件 基 于 逻辑 设计 的 规则 来 构建 ， 通 过 连接 执 
行 基本 操作 的 构建 块 (逻辑 门 ) 来 处 理 构成 电路 。 图 7. 4a 对 这 种 电路 进行 了 摘 述 。 

20 世纪 80 年 代 ， 人 们 掀起 了 一 场 研究 运动 ， 旨 在 通过 基本 块 来 构建 基于 工作 流 的 计算 机 (后 来 人 
们 称 其 为 数据 流 机 ) 。 这 些 基本 块 按 照 有 向 图 进行 链接 ， 且 每 个 块 在 接收 到 消息 〈 令 牌 ) 时 被 激活 。 一 
份 1986 年 的 麻 省 理工 学 院 (Massachusetts Institute of Technology, MIT) 备忘录 ' ”描述 了 开发 这 种 机 器 涉 
及 的 模型 和 问题 。 图 7. 4b (参见 本 章 参考 文献 [9] ) 给 出 了 数据 流 机 的 一 个 实例 ， 该 机 需 主 要 用 于 计 
算 条 件 表达 式 。 

在 某 种 程度 上 上， 数据 流 机 是 舱 入 到 硬件 的 工作 流 。 如 果 业 界 没 有 意识 到 实现 了 标准 化 的 泛 在 计算 
平台 能 够 提供 更 加 经 济 (和 更 加 灵活 ) 的 软件 实现 方法 ， 那 么 它 可 能 以 这 种 方式 进行 开发 。 技 巧 是 开 
发 可 以 混合 和 匹配 的 软件 构建 块 ， 这 与 硅 片 的 功能 类 似 。 

在 引入 结构 化 计算 机 语言 之 前 ， 人 们 使 用 流程 图 来 确定 算法 。 流 程 图 适用 于 单一 过 程 规范 ,但 在 
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描述 分 布 式 处 理 中 的 并 行 活动 方面 显得 力不从心 。 这 就 是 数据 流 机 (也 是 工作 流 的 所 有 内 容 ) 基于 软 
件 的 实现 方案 的 用 武之 地 。 


a) 用 于 计算 (4^ B) V (C^D) 的 逻辑 电路 。 b) 用 于 计算 Z=if(X 二 7)then(X*7)else(X+7) 的 数据 流 机 





举 个 例子 ， 这 是 作者 的 个 人 经 历 ， 即 电话 中 的 服务 创建 。 本 书 已 经 提 到 的 智能 网 络 技 术 是 在 20 世 
纪 80 年 代 后 期 到 20 世纪 90 年 代 开 发 的 。 其 主要 目标 是 支持 电话 服务 的 快速 开发 。“ 快 速 ” 意 味 着 这 
些 服务 开发 人 员 (虽然 他 们 不 知道 网 络 结构 和 处 理 的 分 布 式 性 质 ) 可 以 在 图 形 接口 的 协助 下 ， 通 过 简 
单 链接 图 标 将 服务 整合 起 来 。 每 个 图 标 代表 一 种 独立 于 服务 的 构建 块 (如 queue_call 或 translate_num- 
ber)。 因 此 ， 包含 基 于 时 间 和 位 置 的 转换 、 播 放 公 告 和 收集 输入 等 复杂 的 800 号 码 服务 ， 可 以 在 数 分 钟 
内 完成 编程 。 当 然 ， 每 种 独立 于 服务 的 构建 块 的 执行 本 身 就 是 一 项 复杂 的 分 布 式 活动 。 然 而 ， 由 于 它 
包含 在 准备 就 绪 的 模块 中 ， 因 而 服务 程序 员 并 不 关心 其 复杂 性 。 用 现代 术语 来 说 ， 可 以 将 每 项 服务 编 
程 为 工作 流 。 人 们 甚至 偶尔 尝试 通过 计 费 和 收费 过 程 来 协调 呼叫 建立 。 由 于 没有 开发 标准 ， 因 而 存在 
看 耕 十 个 服务 创建 环境 ,但 合并 服务 创建 环境 并 非 微不足道 。 在 20 世纪 90 年 代 中 期 作者 研究 了 
AT&T 公司 中 统一 右 干 个 服务 创建 环境 的 方法 ， 本 章 参 考 文献 [10] 对 结果 进行 了 报道 。 

图 7.5 阐明 了 工作 流 规 范 和 执行 的 一 般 概 念 。 在 左 侧 ， 工 作 流 程序 可 表示 为 活动 的 有 向 图 。 这 看 
起 来 几乎 就 像 一 个 流程 图 ;虽然 正如 书 中 将 要 说 到 的 ， 其 实 二 者 存在 着 显著 的 区 别 。 具 体 来 说 ,活动 1 
是 局 动工 作 流 的 第 一 项 活动 。 每 项 活动 (除了 最 后 一 项 活动 和 最 后 一 台 终 端 ) 都 拥有 指向 下 一 个 活动 
的 轩 出 ， 也 就 是 说 消耗 该 链 中 的 输出 。 原 则 上 ， 活动 可 以 形成 回环 ,虽然 图 中 并 未 给 出 这 样 一 个 实例 。 

一 旦 茶 项 活动 完成 ， 则 可 以 通过 条 件 测试 来 选择 下 一 项 活动 。 在 实例 中 ， 测 试 块 决定 活动 2 是 否 
在 活动 1 之 后 开始 局 动 并 消耗 其 输出 。 如 果 活 动 2 没有 启动 ， 则 两 个 活动 (活动 3 和 活动 4) 将 同时 执 
行 。 该 实例 表明 ， 在 将 活动 3 和 活动 4 对 应 的 输出 过 滤 到 活动 5 之 前 ,通过 使 检查 点 (CP) 等 待 两 项 
活动 的 完成 ， 可 以 实现 两 项 活动 的 同步 执行 。 支 持 并 发 使 得 工作 流 规范 与 流程 图 规范 截然 不 同 。 另 一 
个 区 别 是 工作 流 规范 维护 其 显 式 状态 (在 左 侧 的 一 个 块 中 表示 ) ， 它 可 以 由 所 有 活动 进行 读 取 和 更 新 。 

迄今 为 止 ， 本 书 仅 对 工作 流 规范 进行 了 讨论 。 执 行 是 一 件 完全 不 同 的 事情 ， 它 可 由 图 7.5 的 右 侧 
部 分 进行 说 明 ， 该 部 分 对 活动 1 进行 了 扩展 。 可 以 看 出 ， 它 是 由 3 个 进程 一 一 Al, A, 和 A, TAIT, 
且 这 些 进程 运行 于 3 台 不 同 的 机 璐 上 。 然 而 ， 状 态 数 据 库 被 保存 在 另 一 台 机 器 上 (在 这 一 实例 中 )。 当 
然 ， 在 不 同 主机 上 运行 Au 、Al, 和 As 不 重要 一 一 它们 可 以 分 布 在 两 台 主 机 之 间 ， 其 至 可 以 在 同一 台 主 
机 上 运行 。 它 们 是 进程 而 不 是 单个 进程 中 的 线程 也 不 重要 。 这 种 安排 的 巧妙 之 处 在 于 执行 主机 的 选择 
和 执行 的 形式 是 绝对 灵活 的 一 一 这 些 全 部 留 给 运行 环境 来 决定 。 类 似 地 ， 只 要 状态 数据 库 满足 性 能 要 
求 ， 则 其 位 置 (实际 上 也 可 能 是 分 布 式 的 ) 是 不 相关 的 。 为 了 提高 可 靠 性 和 系统 性 能 ， 可 以 复制 状态 
数据 库 。 很 快 ， 我们 将 会 在 OpenStack 设计 中 应 用 这 一 原则 。 

提高 性 能 的 另 一 方面 是 工作 流 优化 。 如 果 人 们 正式 定义 了 工作 流 规 范 语言 (这样 可 以 对 其 进行 解 
析 ) ， 则 可 以 应 用 编译 融 理 论 来 消除 并 行 活动 的 元 余 ， 更 重要 的 是 优化 并 行 活动 的 调度 。 但 是 ， 在 工作 
流 重复 的 情况 下 ， 通 过 统计 分 析 工作 流 性 能 是 可 以 实现 的 ， 这 样 能 够 发 现 性 能 方面 存在 的 问题 。 将 图 
7. 6 描述 的 这 种 方法 称 为 路 径 分 析 ， 它 在 实现 诊断 工具 的 工作 流 中 特别 有 用 。 
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从 输入 采集 的 工作 流 中 的 菜 个 地 方 开始 ， 可 能 存在 着 
kd 
表示 。 通 过 对 路 径 A、 路 径 B，…， 路 径 Z 之 间 的 推断 ， 
发 现 路 径 B 在 执行 时 间 方 面 最 优 ， 因 而 可 以 将 这 一 条 好 建 
议 提 供给 工作 流 设计 人 人员， 并 建议 他 们 删除 其 他 路 径 以 人 简 
化 工作 流 。 

目前 ， 存 在 着 大 量 与 工作 流 相关 的 文献 和 产品 。 这 里 
仅 举 几 例 。 

本 章 参考 文献 [11] 对 一 个 与 电网 相关 的 早期 研究 项 
目 一 一 GridAnt 进行 了 描述 ， 并 对 当时 存在 的 商用 产品 进行 
了 综述 。 本 章 参 考 文献 [12] 对 几 种 工作 流 优化 算法 进行 
了 概述 ， 并 提出 了 一 种 扩展 算法 (布尔 验证 算法 )， 用 于 
处 理 包含 条 件 分 支 和 循环 的 工作 流 。 = 

就 产品 而 言 ， 专 门 网 站 对 Microsoft Windows Workflow | -1 WIG a 
Foundation 进行 了 描述 ， 该 网 站 还 包含 诸多 质量 上 好 的 畏 
FHP 

亚马逊 提供 了 简单 工作 流 服 务 (Amazon Simple Workflow Service, AWS) API 和 工作 流 框架 ， 用 于 
从 用 户 程序 中 调用 这 些 API。 开 发 人 员 需 要 指定 协调 逻辑 (排序 、 计 时 和 失败 响应 ) 以 及 工作 流 每 一 
步骤 的 代码 。 为 此 ， 亚 马 逊 还 提供 了 一 种 文 持 协调 逻辑 的 常用 编程 模式 库 。 

迄今 为 止 ， 本 章 已 经 讨论 了 应 用 中 工作 流 的 一 般 用 法 。 在 本 章 的 后 面 各 节 ， 将 重新 回 到 这 一 主题 ， 
但 是 将 把 讨论 的 焦点 缩小 到 云 业务 流程 中 特定 任务 的 应 用 工作 流 上 。 然 而 ， 在 讨论 这 些 问题 之 前 ， 需 
要 回顾 网 络 和 运营 管理 的 相关 概念 和 技术 。 
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如 前 所 述 ， 网 络 管理 学 科 早 于 数据 通信 和 学科。 它 始 于 电话 网 络 ， 并 仅 由 自动 化 技术 驱动 发 展 。 随 
着 电信 网 络 设备 从 人 工 开关 面板 演进 到 自动 处 理 呼 叫 请 求 的 计算 机 控制 交换 机 ， 控 制 个 人 呼叫 的 需求 
正 逐 步 被 对 控制 呼叫 的 设备 进行 控制 的 需求 所 替代 。 此 外 ， 随 着 时 分 复 用 的 引入 ， 传 输 设备 本 号 的 运 
行 复 杂 到 足以 保证 对 活动 进行 实时 监控 和 管理 。 

与 所 有 其 他 大 型 电话 公司 类 似 ， 在 贝尔 系统 公司 ” 中 ”， 这 些 活动 (通常 称 为 网 络 相 关 业 务 ) 是 
整个 公司 运营 业务 的 一 部 分 ， 包 括 向 客户 提供 服务 、 业 务 管 理 和 维护 运营 。 顺 便 说 一 下 ， 由 于 纯 历 史 
(甚至 是 历史 性 ) 的 原因 ， 我 们 没有 提 到 这 些 活动 此 
天 看 到 的 大 量 软件 技术 概念 被 开发 出 来 ， 主 要 用 于 简化 网 络 运 营 

管理 进程 最 初 是 人 工 执行 的 ， 但 是 在 魔幻 的 20 世纪 70 年 代 ， 它们 越 来 越 多 地 转向 计算 机 处 理 。 人 
们 开发 了 独立 系统 一 一 每 一 系统 对 应 于 待 管理 的 一 种 设备 。 

最 初 ， 贝 尔 系统 公司 采购 各 种 主机 来 承载 运营 支撑 软件 ， 但 是 当 DEC PDP -11 微型 机 出 现 后 ( 当 
MEPA POP 11 FP UNIX 是 作家 汪 也 日 阴山 砚 y WATE LMAI (Operation Sup 
port System, OSS) 的 开发 。 

RA, hF UNIX 操作 系统 可 以 在 任何 计算 机 上 运行 ， 因 而 对 特定 硬件 的 选择 变 得 越 来 越 无 关 紧 
要 。20 世纪 80 年 代 后 期 ， 贝 尔 实验 室 软件 研发 的 绝 大 部 分 是 完全 致力 于 OSS 设计 。 

运营 支撑 系统 或 多 或 少 地 需要 具备 与 任何 企业 管理 相同 的 功能 ， 但 从 更 大 的 规模 上 讲 ， 因 为 电信 
领域 包含 数 千 件 基于 自主 计算 机 的 设备 〈 更 不 用 说 数 亿 根 独立 电话 线 ) 以 及 对 各 种 业务 流程 和 美国 政 
府 法 规 的 深度 控制 ， 这 对 运营 支撑 系统 提出 了 更 高 的 要 求 。 

20 世纪 80 年 代 ， 运营 支撑 系统 的 发 展 目标 是 拥有 能 够 管理 所 有 活动 量具 有 较 高 量 级 的 普 适 运营 支 
HRR o 

首先 ， 公 司 的 业务 活动 是 不 连续 的 。 当 要 求 提供 电话 服务 时 ， 必 须 由 营业 厅 进 行 处 理 。 的 确 ， 在 
一 个 或 男 一 个 数据 库 中 创建 了 一 条 客户 记录 一 一 很 可 能 在 几 个 数据 库 中 创建 了 客户 记录 ,但 是 它 无 法 
自动 到 达 本 地 交换 机 的 数据 库 。 

根据 贝尔 实验 室 当 时 的 轶 事 ， 交换 机 管理 系统 的 操作 人 员 通 过 专用 终端 进行 访问 ,需要 转动 转椅 
使 用 男 一 终端 来 登录 订单 系统 ， a ee 
易 见 ， 这 就 是 “转椅 一 体 化 ”这 一 术语 的 含义 。 

准确 地 说 ， pe EE, TA WN E 

1) 集成 有 记录 保存 系统 的 主干 网 。 

2) 插件 库存 控制 系统 。 

3) 综合 布线 信息 系统 ”。 

4) 全 部 网 络 数 据 系 统 。 

5) 交换 控制 数据 系统 。 

6) 中 央 办 公设 备 工程 系统 。 

7) 诸多 设备 网 络 规划 系统 。 

此 外 ，20 世纪 70 年 代 ，AT&T 开发 了 一 种 中 央 网 络 管理 系统 ， 该 系统 在 新 泽 西 州 贝 德 明 斯 特 市 网 
络 运 营 中 心 展 示 。 这 里 ， 网 络 上 的 所 有 更 新 都 可 以 显示 在 美国 墙壁 大 小 的 地 图 上 ， 用 于 显示 网 络 的 状 
态 。 必 要 时 ， 工 作 于 个 人 终端 设备 的 网 络 管理 员 可 以 采取 纠正 措施 。 这 是 针对 网 络 (与 网 元 ) 管理 做 


O HEARE, 20 世纪 80 年代， 每 名 贝尔 实验 室 员工 在 他 /她 工作 的 第 一 天 都 会 收 到 一 部 令 人 印象 深刻 的 900 寻呼机 。 
有 趣 的 是 ，30 多 年 后 ， 这 本 书 在 技术 上 对 历史 学 家 之 外 的 人 仍然 是 相关 和 有 用 的 。 读 者 仍然 可 以 在 书店 和 网 上 获得 这 些 
信息 。 
GQ AT&T 自身 的 3B 计算 机 生产 线 主要 应 用 于 电话 交换 机 领域 ,尽管 它 最 小 的 后 代 (UNIX PC) 是 普通 个 人 计算 机 。 
O 第 59 区 实验 室 。 
四 
@ 











今天 仍旧 如 此 ， 但 需要 明确 的 是 ， 编 排 的 目标 是 什么 以 及 如 何 解决 这 一 问题 。 
与 企业 客户 有 关 。 
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出 的 第 一 个 决定 性 措施 。20 世纪 80 年 代 后 期 ，AT&T 网 络 系统 部 门 开 发 了 中 央 网 络 流量 管理 系统 ， 并 
将 其 出 售 给 区 域 和 国外 运营 公司 ” 。 

回 到 统一 的 OSS 愿景 上 。 这 其 中 的 主要 障碍 是 ,在 贝尔 系统 中 ， 多 种 系统 独立 演进 ， 却 没有 任何 
公共 平台 ”。 重 写 所 有 这 些 软 件 是 不 成 问题 的 ,但 即使 做 出 重 写 决定 ,仍然 不 存在 不 同 厂 商 可 以 共同 实 
施 的 标准 。 由 于 该 愿景 是 围绕 综合 业务 数字 网 (Integrated Services Digital Network, ISDN) 技术 构建 的 ， 
该 技术 综合 了 电话 服务 与 数据 通信 服务 ， 第 一 步 是 〈 自 然 ) 将 数据 通信 网 络 的 管理 整合 起 来 。 数 据 通 
信和 网 络 管理 已 经 发 展 为 自己 的 一 门 学 科 ， 它 以 5 项 内 容 框架 作为 起 点 启动 ISO OSI 网 络 管理 项 目 。 这 一 
框架 仍然 是 包罗 万 象 的 ， 本 书 将 在 下 一 节 对 其 进行 描述 。 


7.2.1 OSI 网 络 管理 框架 和 模型 kee 





OSI] 网络 管理 框架 的 第 1 项 内 容 是 配置 管理 ， 且 涉及 诸多 参数 ， 这 些 参数 值 需要 在 网 络 中 所 有 设备 
上 维持 在 指定 范围 。 一 些 参数 值 只 能 由 网 络 所 有 者 直接 进行 修改 ， 而 其 他 参数 是 只 读 的 ” 。 

OSI 网 络 管理 框架 的 第 2 项 内 容 涉 及 故障 管理 。 广 义 上 的 “故障 ”一 词 是 指 网 络 中 的 任何 异常 情 
况 。 这 里 ， 面 临 的 一 项 大 型 设计 任务 当然 是 对 所 有 事件 进行 清晰 的 定义 ， 而 这 些 事 件 对 应 于 从 “异常 ” 
到 正常 的 变化 。 男 一 项 设计 任务 是 一 方面 选择 那些 有 检测 价值 的 事件 ， 男 一 方面 要 确保 这 些 事件 的 报 
告 不 会 超出 系统 的 处 理 能 力 。 典 型 事件 构成 了 超过 某 一 国 值 的 参数 值 变 化 。 通 过 采用 告警 机 制 ， 可 以 
(通常 ) 实时 记录 并 报告 这 些 变化 。 回 想 一 下 先前 对 计算 机 架构 和 操作 系统 的 讨论 ， 这 种 情况 与 设备 引 
发 的 CPU 中 断 标志 非常 类 似 。 实 际 上 ， 正 如 操作 系统 需要 提供 中 断 处 理 程序 一 样 ， 网 络 管理 系统 也 需 
要 提供 正确 的 操作 流程 。 需 要 注意 的 是 ,为 了 检测 变化 情况 (以 及 对 变化 做 出 反应 ) ， 需 要 调用 配置 管 
理 机 制 。 

OSI 网 络 管理 框架 的 第 3 项 内 容 是 性 能 管理 。 这 也 依赖 于 配置 管理 机 制 来 实时 测量 网 络 资 源 的 使 用 
情况 。 这 项 活动 的 长 期 部 分 是 容量 规划 。 显 而 易 见 ， 当 给 定 资源 变 得 不 堪 重 负 从 而 影响 到 网 络 整体 性 
能 时 ， 使 用 大 型 资源 来 替代 现 有 资源 可 能 要 花 更 多 时 间 〈 但 确定 哪些 资源 有 助 于 绥 解 瓶颈 是 一 个 非 浓 
复杂 的 问题 ) 。 由 于 更 换 或 补充 设备 通常 成 本 昂贵 ， 因 而 高 效 的 容量 规划 可 以 节省 大 笔 资 金 。 

OSI 网 络 管理 框架 的 第 4 项 内 容 是 身份 和 访问 管理 ， 这 将 在 本 章 最 后 一 节 进 行 描述 。 简 而 言 之 ,， 访 
问 管理 的 任务 是 确保 每 次 学 习 网 络 任何 信息 的 尝试 (或 改变 网 络 中 的 任何 内 容 ) 能 够 实现 ， 且 只 有 在 
决定 对 尝试 实体 正确 授权 后 ， 才 可 启动 尝试 进程 。 通 常情 况 下 ， 需 要 记录 访问 关键 数据 的 尝试 ， 否 则 
需要 通过 故障 管理 机 制 进行 处 理 。 

OSI 网 络 管理 框架 的 第 5 项 内 容 (也 是 最 后 一 项 内 容 ) 是 审计 管理 。 这 涉及 与 资源 使 用 收费 有 关 的 
一 系列 活动 。 在 包括 若干 个 机 构 的 企业 网 络 中 ， 这 可 能 意味 着 需要 确定 每 个 机 构 应 当 支 付 的 整体 通信 
费用 比例 。 在 运营 商 网 络 中 ， 确 定 收 入 的 主要 依据 是 活动 。 

虽然 OSI 网 络 管理 框架 已 经 相当 清晰 (对 于 云 来 说 ， 这 一 框架 并 未 发 生变 化 ) ， 但 事实 证 明 网 络 管 
理 标 准 的 开发 是 相当 不 稳定 的 。 几 个 标准 化 组 织 并 行 开 展 竞 争 性 活动 ， 且 迄今 为 止 仍 然 没 有 结果 。 

从 历史 的 角度 来 看 ， 上 述 5 项 内 容 以 不 同 次 序 拼 读 出 来 一 一 故障 、 配 置 、 审 计 、 性 能 和 安全 性 
(Fault, Configuration, Accounting, Performance and Security，FCAPS) ， 因 而 首 字 母 缩 略 词 为 FCAPS, jX 
构成 了 ISO 工作 的 基础 ， 后 期 与 ITU -了 共同 开展 标准 化 工作 。 同 时 ,根据 同一 模型 ，IETF 正在 开发 目 
己 的 协议 系列 。 下 面 将 简要 介绍 他 们 的 协议 ， 但 是 仍 从 共同 的 基本 模型 开始 ， 如 图 7.7 所 示 。 

每 台 被 管理 设备 都 与 管理 信息 库 (Management Information Base, MIB) 相关 联 ， 管 理 信 息 库 实际 上 
定义 了 配置 参数 。 管 理 系 统 可 以 请 求 GR) 参数 值 和 改变 (设置) 参数 此 值 。 哪 些 参数 值 可 以 从 外 
部 进行 更 改 (如 果 需 要 对 参数 值 进行 修 改 ， 则 需要 明确 由 谁 进行 修改 ) 是 MIB 规范 的 一 部 分 。 还 有 与 
参数 有 关 的 其 他 功能 ， 如 学 习 在 MIB 中 定义 了 哪些 参数 ， 以 及 定义 被 管理 对 象 的 许多 细微 差别 。 告 


O 1991 年 的 出 版 物 '“ 描述 了 法 国电 信 新 网 络 运营 中 心 Netminder ”流量 管理 系统 的 部 署 情 况 。 

O ”在 某 些 运营 支撑 系统 (OSS) 中 ， 其 早期 版 本 依赖 于 转椅 和 人 工 输 入 ,但 随后 OSS 升级 到 能 够 直接 从 交换 机 处 接收 该 输 
入 ， 而 输入 的 形式 保持 不 变 〈 以 确保 接口 相同 ， 防 止 对 OSS 代码 进行 任何 更 改 ) 。 对 交换 机 进行 编程 ， 达 到 假装 是 人 类 
以 ASCI 文本 来 啊 应 OSS 提示 的 效果 : 

O 考虑 一 家 公司 拥有 多 个 局 域 网 (LAN) 并 从 电信 运营 商 租赁 线路 来 实现 局 域 网 互 连 的 情况 。 公 司 的 网 络 管理 系统 可 以 改 
变 用 于 控制 企业 自身 设备 的 参数 值 ， 但 它 只 能 读 取 用 于 控制 运营 商 设备 的 参数 值 。 
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国际 电信 联盟 (International Telecommunications Union, ITU) 已 经 联合 ISO/IEC JTC 1 共同 开发 了 
本 章 参 考 文献 [15] 中 定义 的 通用 管理 信息 协议 (Common Management Information Protocol, CMIP) 和 
X. 700 系列 中 的 其 他 ITU -了 建议。 由 于 CMP 正在 使 用 互联 网 中 不 可 用 的 OST 应 用 层 服务 [如 OSI 远 
程 操 作 服 务 元 素 (Remote Operations Service Element, ROSE) |, ， 而 IETF 决定 继续 使 用 自己 的 协议 ， 这 
样 在 网 络 管理 标准 开发 方面 开始 出 现 分 歧 。 

基于 通用 管理 信息 协议 (CMIP) 和 其 他 模块 ，ITU -T 已 经 提出 了 一 组 称 为 电信 管理 网 (Telecom- 
munications Management Network, TMN) 的 规范 (M. 3000 系列 ) m IETF 已 经 开发 出 所 谓 的 简单 网 络 
管理 协议 (SNMP) ， 目 前 已 经 演进 到 第 3 版 一 一 SNMPv3。 企业 IT 部 门 已 经 专门 部 署 了 SNMP， 而 将 
TMN 部 团 在 电话 网 络 〈 特 别 是 在 WorldCom) 中 ， 本 章 参考 文献 [16] 对 此 进行 了 报道 。 这 种 差异 是 相 
当 不 位 的 ， 因 为 它 进 一 步 扩大 了 电话 和 开 之 间 的 差异 一 一 网 络 管理 标准 化 工作 应 该 消除 的 差异 。 

SNMP STD 62 标准 于 ,2002 年 完成 ， 它 反映 了 SNMP 十 多 年 的 开发 成 果 。 到 2003 年 ， 当 IETF 互联 
网 架构 委员 会 举办 研讨 会 "时 ，SNMP 已 经 得 到 广泛 部 署 ， 且 大 多 数 P 设备 上 已 经 拥有 了 一 些 管理 信息 
Æ (MIB)。 因 此 ， 业 界 已 经 获得 了 足够 的 操作 经 验 来 理解 技术 的 局 限 性 。 技 术 局 限 性 是 SNMP 主要 用 
于 处 理 网 络 管理 的 设备 监控 问题 (与 配置 问题 截然 相反 ) 。 

应 该 强调 的 是 ， 设备 监控 过 去 是 (现在 仍 是 ) 重要 功能 ， 因 为 它 提供 了 物理 设备 (如 服务 器 主板 
或 简单 风扇 ) 状态 的 通知 消息 (“陷阱 ”) 。 知 道 硬件 正常 工作 并 尽早 发 现 故障 是 操作 规则 的 基础 。 在 
现代 数据 中 心 ， 这 种 SNMP 陷阱 被 馈送 到 专门 监控 系统 (如 Nagios”) 中 ， 并 用 作 基 于 开发 运 维 (de- 
vops) 方法 的 现代 解决 方案 的 一 部 分 。 

虽然 使 用 SNMP 来 配置 设备 并 不 是 闻所未闻 的 (毕竟 协议 明确 支持 通过 SET 方法 来 更 改 设备 参 
数 ) ， 但 许多 标准 的 MIB 模块 仍 缺 乏 可 写 对 象 。 使 用 SNMP, 识别 配置 对 象 并 不 容易 ， 且 根据 RFC 3535 
描述 的 内 容 ， 命 名 系统 本 身 似乎 是 恢复 到 重新 配置 系统 的 先前 配置 。 但 是 ， 对 网 络 运 营 商 来 说 ， 即 使 
所 有 MIB 都 是 完美 的 ，SNMP 的 水 平 也 太 低 一 一 他 们 对 以 鸟 敬 图 方式 开发 应 用 构建 块 所 做 的 工作 过 少 而 
感到 遗憾 。 

baa SNMP 软件 开始 达到 其 性 能 限制 ， 这 种 构建 块 的 开发 可 能 帮助 不 大 。 例 如 ， 事 实证 明 ， 检 索 
路 由 表 的 速度 非常 慢 。 男 一 组 问题 是 由 于 保持 协议 简单 (这 正 是 SNMP 中 S 所 表达 的 含义 ) 的 目标 引 
ER. RA, 协议 相当 简单 (与 CMIP 相 比 ) ， 但 却 将 复杂 性 留 给 开发 人 员 处 理 。 目 前 ， 网 络 管理 应 用 
本 该 检查 SNMP 事务 的 状态 ”， 并 准备 将 设备 回 滚 到 一 致 的 状态 。 设 计 这 种 应 用 需要 开发 人 员 具 有 分 布 


〇 ”研讨 会 的 结果 已 记录 在 文档 RFC 3535 H, 

© Nagios 是 一 个 开源 软件 项 目 。 

O ”在 这 种 情境 中 ， 选 择 UDP 作为 传输 协议 使 得 问题 变 得 更 为 糟糕 ， 正 如 杰 夫 ' 休斯顿 (G. Houston) 在 2002 年 所 撰写 的 文 
章 中 指出 的 那样 。 
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式 处 理 方面 的 丰富 经 验 ， 甚 至 对 于 专家 来 说 ， 这 也 绝对 不 是 一 项 简单 的 任务 。 这 是 会 让 人 对 实现 网 络 管理 
应 用 更 “易于 ”开发 的 计划 产生 误解 的 〈 即 由 来 自 一 些 基 本 组 成 部 分 的 非 程序 员 拼 凑 而 成 ) 。 更 一 般 地 
说 ， 正 如 RFC 3535 所 描述 的 那样 ,“ 面 向 的 世界 任务 视图 和 由 SNMP 提供 的 世界 的 数据 中 心 视图 之 间 语 义 
方面 存在 着 不 匹配 。 从 面向 任务 视图 映射 到 数据 中 心 视 图 通常 需要 一 些 有 实际 意义 的 代码 。 

“简单 性 ”导致 规范 不 足 ， 这 将 严重 阻碍 互 操作 性 : 

“ 几 个 标准 化 MIB 模块 缺乏 对 高 级 规程 的 描述 。 通 过 读 取 MIB 模块 ， 通 常 无 法 和 弄 明 白 某 些 高 级 任 
务 是 如 何 完 成 的 ， 这 会 导致 实现 同一 目标 可 以 采用 几 种 不 同方 式 ， 从 而 增加 成 本 并 严重 阻碍 互 操 
作 性 。 

SMNP 在 配置 管理 方面 无 效 的 一 部 分 问题 正 是 网 络 管理 员 (通常 假定 为 “智能 ”) 处 理 “ 哑 设备 ” 
所 使 用 的 模型 。 最 初 ， 设 备 〈 调制 解 调 器 就 是 很 好 的 例子 ) 确实 不 是 可 编程 的 ， 但 到 了 20 世纪 90 年 
代 未 ， 和 情况 发 生 了 巨大 变化 。 要 理解 不 同 之 处 ,可 以 考虑 家 庭 网 络 概 念 所 发 生 的 事情 ， 家 庭 网 络 从 庞 
大 的 调制 解 调 器 (将 计算 机 连接 到 电话 线 ) 演变 为 以 太 网 LAN 集线器 (尽管 普通 家 庭 中 相对 较为 少 
见 )， 然 后 演进 到 当前 拥有 内 置 防 火 墙 和 NAT AR Wi -Fi 基站 路 由 器 。 除 了 明显 差异 之 外 ， 还 有 相当 
微妙 的 一 点 : 所 有 这 些 设备 引入 的 复杂 性 需要 根据 具体 的 策略 进行 配置 更 改 。 

AK SNMP 的 更 多 详细 信息 ， 推 荐 读者 参阅 下 一 章 。 


7.2.2 基于 策略 的 管理 «xr | 


IETF 开始 逐步 解决 问题 ， 并 严格 基于 具体 需求 开展 。 首 要 需求 是 用 于 支持 QoS 的 策略 配置 。 这 里 ， 
设备 (通常 是 路 由 器 ) 是 智能 的 : 其 配置 需要 根据 用 户 需求 而 不 断 变 化 〈 以 响应 用 户 需 求 ) ， 且 管理 
系统 需要 将 变化 情况 从 本 地 副本 传输 到 设备 中 。 这 里 ， 模 型 引入 了 新 挑战 一 一 需要 在 网 络 管理 器 和 设 
备 之 间 保 持 同步 状态 。 男 一 个 挑战 来 自 于 负责 管理 同一 设备 的 两 个 或 多 个 网 络 管理 员 之 间 存 在 的 潜在 
干扰 ” 。 这 种 情况 引入 了 了 矛盾 变化 可 能 导致 设备 损坏 的 隐患 。 

此 时 ， 就 需要 一 种 基于 策略 的 管理 。 虽 然 设备 可 能 必须 根据 用 户 请 求 发 生变 化 ， 但 是 仅仅 基于 用 
PRK 〈 即 用 户 请 求 什么 就 提供 什么 ) 来 分 配 网 络 资源 几乎 是 不 可 接受 的 。 网 络 提供 商 希望 拥有 一 种 
能 够 基于 一 组 策略 规则 来 赋予 资源 的 机 制 。 关 于 是 否 授予 资源 的 决定 需要 考虑 到 用 户 和 账户 信息 、 所 
请 求 的 服务 以 及 网 络 本 身 的 信息 。 

将 SNMP 应 用 于 此 目的 并 不 简单 ， 因 而 ETF 开发 出 一 种 新 协议 ， 用 于 网 元 与 策略 决定 点 (Policy 
Decision Point, PDP) 之 间 的 通信 ， 而 PDP 也 是 基于 策略 做 出 决定 的 地 方 。 将 该 协议 称 为 公共 开放 策略 
服务 (Common Open Policy Service，COPS) ， 本 书 将 在 附录 A 中 对 该 协议 进行 介绍 。 

重要 的 是 ， 公 共 开 放 策 略 服务 极 大 影响 了 2004 年 来 ETSI (European Telecommunications Standards 
Institute ， 欧 洲 电 信 标 准 化 协会 ) 和 ITU -T 开 发 的 下 一 代 网 络 (NGN) 标准 。NCN 的 主要 特征 是 : © 
端 到 端 分 组 传输 普遍 采用 IP; @ 驱 动 有 线 和 无 线 技 术 之 间 的 融合 ”。 

与 针对 特定 应 用 进行 优化 的 专用 网 络 相 反 ， 人 们 将 NGN 设想 为 可 以 满足 大 量 应 用 性 能 需求 和 安全 
性 需求 的 通用 多 业务 网 络 。 为 此 ， 服 务 控制 与 传输 、 分 配 机 制 分 离 ， 并 向 应 用 提供 (通常 以 实时 或 近 
实时 形式 ) 网 络 资源 。 

出 现 了 支持 所 谓 三 重播 放 业 务 的 一 系列 具体 应 用 ,包括 中 语音 (Voice over IP, VoIP), IP 电视 
(IP Television, IPTV) 和 互联 网 接 和 人 入。 这 些 应 用 过 去 需要 ( 且 将 来 仍然 需要 ) 特殊 的 QoS 处 理 。 
| 正如 在 第 4 章 中 所 看 到 的 那样 ， 应 用 性 能 需求 可 由 4 个 关键 参数 : HH. Ba. REAP oN ( 即 

时 延 变化 ) 来 表征 ， 这 些 都 决定 着 服务 质量 。 总 体 而 言 ， 三 重播 放 业 务 需 求 在 QoS 方面 是 不 同 的 。 例 
如 ， 一 些 流 行 的 数据 应 用 (如 电子 邮件 和 Web 访问) 需要 低 带 宽 到 中 等 带宽 ， 且 在 时 延 和 持 动 方面 要 
求 是 相当 宽松 的 。 相 比 之 下 ， 视 频 点 播 (Video on Demand, VoD) 流 对 时 延 的 要 求 放宽 ， 但 是 它们 确 
实 需要 高 带宽 ， 且 不 能 容忍 丢 包 过 多 或 抖动 。 然 而 ，VoIP 可 以 容忍 一 些 丢 包 ， 需 要 比 VoD 低 得 多 的 带 
宽 ， 但 它 既 不 能 承受 长 时 延 ， 又 不 能 容忍 抖动 。 








O TEAS + 休斯顿 (G. Houston) 的 文章 中 对 这 两 种 挑战 进行 了 解释 ， 前 面 的 脚注 中 所 到 了 这 一 点 。 

O 实际 上 ， 尽 管 无 线 网 络 中 通信 路 径 的 一 小 部 分 ( 即 手机 和 无 线 基站 之 间 的 路 径 ) 是 无 线 的 ， 其 余部 分 的 路 径 大 部 分 是 
“有 线 ” 的 ， 可 是 历史 上 电信 运营 商 仍 坚持 两 种 网 络 和 服务 分 开 提 供 。2005 年 似乎 是 推动 融合 的 关键 一 年 。 本 章 参 考 文 
AR [17] 是 一 部 关于 这 个 主题 的 综合 性 专著 。 
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除了 与 QoS 相关 的 资源 之 外 ， 网 络 通 常 需要 问 端 点 和 进程 赋予 其 他 资源 (如 了 地 址 或 与 服务 相关 
的 端口 号 )。 回 顾 一 下 第 5 章 的 内 容 ， 这 一 特定 需求 来 自 于 NAT LSNAT (Load Sharing using IP Network 
Address Translation, ， 使 用 IP 网 络 地 址 转换 的 负载 共享 ) 部 署 ， 采 用 这 种 部 署 模式 可 以 隐藏 内 部 网 络 
Mitho 

NGN RA E 182 Fx E FF HC ARERR ETERA, AA NGN 结合 了 多 种 网 络 类 
型 ， 包 括 异 步 传 输 模 式 (Asynchronous Transfer Mode, ATM), 、 数 字 用 户 线 (Digital Subscriber Line, 
DSL) 、 以 太 网 以 及 固定 和 移动 无 线 接 人 网 络 。 

履行 这 一 复杂 职责 的 关键 是 一 种 基于 策略 的 动态 资源 管理 框架 ， 本 章 参 考 文献 [18] 将 其 称 为 资 
源 和 访问 控制 功能 (Resource and Admission Control Function, RACF) (读者 可 参阅 本 章 参 考 文献 | 19 | 
中 发 布 的 ITU -TT 标准 )。 需 要 强调 的 一 点 是 ，RACF 已 经 实现 了 与 OSS 的 协同 实时 处 理 。RACF 拥有 两 
项 功能 ， 且 该 协议 综合 了 两 组 构建 块 。 

即使 RACF 直接 受到 COPS 的 影响 ， 其 框架 也 依赖 于 除 COPS 之 外 的 一 些 IETF 协议 ”。 从 诞生 之 日 
起 ， 第 3 代 合 作 伙 伴 (3GPP 和 3GPP2) 一 直 在 跟踪 和 影响 文 持 IP 多 媒体 子 系统 (IP Multimedia Subsys- 
tem, IMS) 的 IETF 构建 块 的 开发 工作 ”。 

虽然 第 3 代 合 作 伙 伴 关 注 的 重点 是 无 线 运营 商 的 需求 ,但 ETS 电信 和 互联 网 融合 业务 及 高 级 网 络 
协议 (Telecommunication and Internet Converged Services and Protocols for Advanced Networks, TISPAN) 小 
组 于 2003 年 启动 了 一 个 涉及 固定 接 人 的 项 目 。 该 项 目 中 的 资源 管理 方法 体现 在 其 资源 和 访问 控制 子 系 
统 (Resource and Admission Control Subsystem, RACS) 中 ， 该 标准 发 布 于 本 章 参 考 文献 [21] 中 。 

应 当 再 次 强调 ， 网 络 地 址 端口 转换 以 及 NAT 穿越 的 控制 需求 是 ETSI 标准 化 工作 的 重要 推动 力 。 当 
服务 提供 商 开 始 部 署 VoIP 时 ， 他 们 发 现 了 我 们 目前 非常 熟悉 的 、 由 位 于 NAT 设备 后 的 终端 用 户 导 致 的 
并 发 症 (大 多 数 宽带 接 入 用 户 也 会 遇 到 类 似 情 况 )。 采 用 文 持 托管 NAT 穿越 的 会 话 边 界 控制 器 能 够 有 
效 避 免 此 类 问题 的 出 现 。 然 而 ， 独 立会 话 边界 控制 絮 在 整个 IMS 方法 中 表现 并 不 太 理 想 。 相 比 之 下 ， 
在 与 IMS 会 话 控制 接口 的 策略 决策 功能 的 控制 下 ， 作 为 策略 执行 的 一 部 分 ，RACS 模型 支持 NAPT 和 托 
管 NAT 穿 透 。 

2004 年 ，ITU -了 开始 着 手 进 行 RACF 的 工作 ， 目 的 是 保持 服务 和 传输 的 分 离 ， 同 时 支持 应 用 驱动 
的 、 基 于 环 略 的 动态 端 到 端 QoS 和 资源 控制 能 力 (特别 是 资源 预 留 )、 访 问 控制 和 门 控 、NAPT、 网 络 
域内 和 网 络 边 界 的 托管 NAT 穿 透 。 从 一 开始 ，RACF 的 适用 范围 就 包括 各 种 类 型 的 接 人 网 和 核心 网 。 
为 此 ， 通 过 混搭 (而 不 是 取代 ) 公共 框架 内 的 现 有 标准 化 成 果 ，RACF 是 创建 灵活 端 到 端 资 源 管理 解 
决 方案 的 首次 尝试 。 

可 以 看 出 ，COPS 已 经 解决 了 基于 策略 的 管理 问题 ， 但 并 没有 解决 高 效 管理 配置 问题 。 回 到 RFC 
3535 (读者 可 能 记得 ， 有 关 2002 年 IAB 研讨 会 的 报告 ) ， 运 营 商 普遍 的 投诉 是 缺乏 全 面 一 致 的 配置 规 
程 。 无 论 是 COPS 还 是 日 益 增 长 的 IETF MIB 集 都 于 事 无 补 。 

因此 ， 专 题 讨论 会 的 目标 之 一 是 确定 如 何 重新 聚焦 ETF 资源 ”。 研 讨 会 提出 8 条 建议 ， 既 有 积极 


加 “这些 协议 包括 远程 认证 拨 入 用 户 服务 (Remote Authentication Dial —in User Service, RADIUS) 及 其 后 续 协 议 : Diameter 和 
媒体 网 关 控制 (Media Gateway Control, MEGACO). RADIUS 是 一 种 用 于 远程 拔 入 应 用 中 的 早期 认证 和 授权 协议 ， 但 易于 
扩展 到 其 他 访问 机 制 。 最 初 ，Diameter 是 作为 RADIUS 的 改进 版 出 现 的 ， 但 目前 已 演变 成 大 量 需要 认证 、 授 权 和 计 费 功 
能 的 应 用 所 广泛 采用 的 通用 对 等 协议 ， 这 也 解释 了 它 成 为 资源 控制 必 不 可 少 的 候选 方案 的 原因 。MECACO 协议 由 IETF 
MEGACO 小 组 与 ITU -T 第 16 研究 组 联合 开发 ， 且 它 在 ITU -T 项 目 名称 是 H. 248。 最 初 ， 人 们 开发 MEGACO/H. 248 
的 目的 是 用 于 管理 电路 和 分 组 网 络 之 间 的 媒体 网 关 ， 后 来 将 其 进行 扩展 以 支持 通用 分 组 到 分 组 的 边界 网 关 。 需 要 注意 的 
是 ， 与 Diameter 或 RADIUS AJA], MEGACO/H. 248 不 是 对 等 协议 ， 它 是 一 种 客户 端 /服务 器 或 〈 使 用 自己 的 术语 ) = 
从 协议 。 在 某 些 情况 下 ， 此 功能 限制 了 它 在 策略 决定 点 (PDP) 到 策略 执行 点 (Policy Enforcement Point, PEP) 接口 的 
有 效 性 。 

© IMS 是 由 3GPP 开发 的 ， 从 1998 EFt, WE IP 和 无 线 融 合 迈 出 了 决定 性 一 步 。 本 章 参 考 文献 [20] 对 IMS 架构 和 标 
准 进 行 了 描述 。 在 21 世纪 的 前 10 年 ，3GPP 已 经 在 基于 业务 的 本 地 策略 (Service - Based Local Policy, SBLP) 中 采用 了 
这 些 构建 块 ， 而 SBLP 正在 向 策略 与 计 费 控制 (Policy and Charging Control, PCC) 机 制 演变 。 人 们 将 3GPP2 模型 称 为 基 
于 业务 的 承载 控制 。 尽 管 相应 接口 指定 的 协议 有 所 不 同 ， 可 是 它们 在 概念 层面 上 非常 相似 。 

© RFC 3535 使 用 严谨 的 术语 对 此 进行 了 摘 述 :“ 在 这 些 会 议 召 开 期 间 ， 几 家 运营 商 表 达 了 自己 的 看 法 ， 即 IETF 在 标准 开 
发 方面 并 没有 真正 考虑 他 们 的 需求 ， 特 别 是 在 配置 管理 方面 。 这 自然 会 导致 正 TF 是 否 应 重新 聚焦 资源 ， 以 及 未 来 在 运 
营 和 管理 领域 开展 哪些 战略 性 活动 等 问题 。 
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的 〈 需 要 重点 关注 哪些 活动 ) ， 又 有 消极 的 否定 (哪些 活动 需要 停止 ) 。 其 中 , “协议 开发 人 员 和 运营 
商 达 成 强烈 共识 ”的 唯一 获得 协议 开发 人 员 和 运营 商 的 积极 建议 是 “IETF 将 资源 集中 于 配置 管理 机 制 
的 标准 化 ”。 男 两 条 运营 商 支 持 力度 明显 大 于 协议 开发 者 的 建议 是 : 将 资源 用 在 “基于 XML 的 设备 配 
置 和 管理 技术 的 开发 和 标准 化 ”"， 而 不 是 用 在 基于 HTTP 上 HTML 的 配置 管理 ” 。 

值得 赞扬 的 是 ，IETF 反应 相当 敏捷 ， 并 给 出 决定 性 回应 。2003 Æ, NETCONF 工作 组 成 立 ，3 年 后 发 
布 第 1 版 NETCONF 协议 。 在 接 下 来 的 两 年 中 ， 人 们 将 通知 以 及 几 个 经 典 的 分 布 式 处 理 和 安全 机 制 增加 到 
协议 中 ， 且 协议 在 后 面 8 年 中 不 断 演变 。 基 本 NETCONF 协议 的 现 有 版 本 一 一 RFC 6241 是 2011 年 6 月 发 布 
的 。 其 扩展 内 容 已 发 布 在 单独 的 RFC 文档 中 。 本 书 将 在 下 一 章 中 对 NETCONF 协议 进行 详细 介绍 。 

同时 ， 业 界 已 经 开发 出 若干 种 配置 管理 工具 ， 这 些 工具 在 当今 的 云 中 得 到 了 广泛 应 用 。 在 本 节 的 
剩余 部 分 ， 将 回顾 两 个 众所周知 的 实例 : Chef 公司 (以 前 的 Opscode 公司 ) 开发 的 Chef 配置 工具 和 
Puppet 实验 室 开 发 的 Puppet 配置 工具 。 

使 用 Chef 配置 工具 ， 管 理 员 使 用 所 谓 的 配方 来 描述 分 布 式 系 统 (可 能 包括 Web 服务 器 、 负 载 均 衡 
te A a OEE) 结构 。 这 些 配方 描述 了 如 何 部 署 、 配 置 和 管理 结构 中 的 实体 ， 而 它们 存储 在 Chef AR 
Reel. Chef 客户 端 安 装 在 各 个 节点 ( 它 可 能 是 虚拟 机 ) Eo Chef 客户 端的 工作 是 通过 检查 安装 在 
Chef 服务 右上 最 新 配方 的 符合 度 ， 并 根据 需要 自动 更 新 软件 ,来 确保 每 个 节点 上 的 软件 处 于 最 新 状态 。 
在 编写 本 书 时 ， 该 公司 在 其 网 站 上 提供 了 作为 学 习 工 具 的 免费 实验 (甚至 是 受 限 的 免费 软件 分 发 ) ， 我 
们 将 其 强烈 推荐 给 感 兴 趣 的 读者 。 

类 似 地 ，Puppet 能 够 自动 执行 配置 任务 ， 因 为 它 也 是 基于 客户 端 / 服 务 器 模型 的 。 它 与 Chef 的 主要 
区 别 在 于 规范 方法 。Puppet 规范 (使 用 自己 的 DSL) 是 声明 式 的 一 一 它 指 定 从 属 关系 ， 且 客户 端 确 保 
遵循 这 些 规范 。 相 比 之 下 ，Chef 规范 是 程序 化 的 ， 它 是 使 用 Ruby 语言 编写 的 。 与 Chef 一 样 Puppet 也 
是 开源 可 用 的 。 本 章 参考 文献 [22] 是 一 篇 鞭 辟 入 里 的 文章 ， 它 对 两 者 进行 了 全 面 比 较 。 


7.3 ”去 内 部 的 业务 流程 与 管理 


这 里 准备 将 本 章 和 本 书 其 他 部 分 涉及 的 难题 拼凑 在 一 起 。 前 面 已 经 介绍 过 数据 中 心 和 网 络 互 连 物 
理 单 元 的 管理 元 素 ， 没 有 涉及 的 内 容 是 云 服 务 生 命 周期 的 管理 问题 。 

除了 许多 技术 问题 (如 图 像 的 创建 和 引导 ) ， 这 里 开始 讨论 业务 问题 。 分 布 式 管理 任务 组 ( Distrib- 
uted Management Task Force，DMTF)“ 组 织 已 经 对 该 主题 进行 了 深入 介绍 ， 因 而 将 使 用 DMTF 白皮书 
《管理 云 的 架构 》 中 描述 的 定义 和 概念 。 下 一 节 将 介绍 OpenStack 中 的 业务 流程 和 管理 。 
XE, 需要 强调 的 是 ， 业 务 流程 可 以 在 各 个 层次 上 实现 。 在 本 革 中 ， 用 音乐 模拟 开始 ， 并 以 音乐 
模拟 结束 。 最 终 ， 在 乐团 里 ， 每 件 乐 器 都 需要 发 挥 自己 的 作用 。 这 些 作 用 可 以 在 音乐 家 “和 群 ”( 如 第 一 
小 提花 组 或 第 二 小 提琴 组 ) 之 间 共 享 ， 但 最 终 将 各 个 部 分 合并 成 为 节 ， 然 后 组 合成 单个 乐谱 一 一 乐队 
指挥 需要 用 到 的 整个 乐谱 。 

在 极端 (或 有 些 退 化 ) 的 情况 下 ， 需 要 由 自己 的 管理 员 对 云 中 的 每 台 虚 拟 机 进行 手动 配置 、 监 视 
和 重 定位 等 。 此 项 任务 可 以 使 用 工具 (如 Chef 或 Puppet) 来 实现 自动 化 。 这 是 虚拟 机 (“乐器”)。 拥 
有 自身 “乐谱 ”的 地 方 。 在 新 的 层面 上 ， 整 个 基础 设施 (虚拟 机 和 网 络 组 件 将 其 进行 互 连 ) 可 以 根据 
统一 的 “乐谱 ”进行 安排 ,这 就 是 OpenStack 实例 所 要 说 明 的 问题 。 但 事情 远 不 止 此 ! 在 顶层 ， 可 以 将 
商业 策略 与 基础 设施 规范 结合 起 来 编写 “乐谱 ”。 这 可 以 通过 使 用 OASIS 标准 一 一 云 应 用 拓扑 和 业务 流 
程 规范 (Topology and Orchestration Specification for Cloud Applications, TOSCA) 来 实现 ， 本 书 将 在 附录 A 
中 对 该 规范 进行 回顾 。 


| 


这 里 涉及 的 3 个 实体 是 云 服务 提供 商 、 云 服务 开发 人 员 和 云 服务 消费 者 。 


O 正如 事情 发 展 的 那样 ( 稍 后 会 回 到 这 个 话题 )，NETCONF 战斗 是 REST 阵营 失利 的 战斗 之 一 。 当 时 ，RPC 阵营 赢 了 ， 但 
ETE 2009 年 左右 开始 系统 性 溃败 ， 此 时 REST 阵营 重新 集结 。 

O DMTF 成 立 于 1992 年 ， 其 宗旨 是 “将 开 界 联合 起 来 ， 共 同 开展 系统 管理 标准 制定 、 验 证 、 推 广 和 采纳 ”。 

O 这 种 自动 化 甚至 可 以 扩展 到 相同 虚拟 机 的 集群 。 
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假设 云 服务 开发 人 员 需 要 创建 一 种 (典型 的 ) Web 服务 基础 设施 ， 如 3 台 相 同 服务 器 、1 AR 
均衡 器 和 1 个 后 端 数 据 库 。 编 写 一 种 向 云 服务 提供 商 发 出 个 人 请 求 的 程序 ， 来 创建 所 有 实例 和 网 络 ， 
它 在 多 个 方面 存在 问题 。 

首先 ， 假 设 已 经 成 功 创建 了 负载 均衡 器 和 2 台 服 务 器 的 实例 ， 但 是 在 为 第 3 台 服 务 器 创建 的 虚拟 机 
失败 。 用 户 程序 应 该 做 些 什 么 ? 删除 所 有 其 他 实例 并 重新 局 动 不 是 一 种 有 效 的 做 法 ， 原 因 如 下 : 从 服 
务 开发 人 员 的 角度 来 看 ， 这 将 导致 程序 严重 复杂 化 〈 程 序 本 应 是 相当 简单 的 ) 。 从 服务 提供 商 的 角度 来 
看 ， 这 将 导致 最 初 分 配 资源 的 浪费 ， 然 后 释放 从 未 使 用 的 资源 。 

其 次 ,假设 所 有 实例 都 已 经 创建 ， 则 服务 提供 商 需 要 支持 弹性 。 问 题 是 : 山 如 何 规定 弹性 ; si 
性 将 产生 何 种 影响 。 假 设 3 台 服 务 器 中 的 每 台 都 达到 CPU 利用 率 的 国 值 。 这 样 ， 简 单 的 解决 方案 是 创 
建 另 一 个 实例 (一旦 突 发 活动 结束 即 可 进行 删除 ) ， 但 是 如 何 自动 完成 所 有 这 些 实例 的 创建 ? 为 此 ， 也 
许可 能 不 需要 3 个 实例 ， 而 只 需 首 先 创建 两 个 实例 。 

业界 采用 的 解决 方案 是 以 更 一 般 的 术语 来 定义 服务 〈 将 用 实例 来 说 明 ) ， 这 样 服务 创建 就 是 由 服务 
提供 商 执 行 的 一 种 原子 操作 一 一 这 是 业务 流程 首先 引 人 注 意 的 地 方 。 一 旦 部 署 了 服务 ， 业 务 流程 管理 
做 自己 就 会 添加 和 删除 服务 定义 中 指定 的 实例 〈 或 其 他 资源 ) 。 

因此 ， 图 7. 8 对 工作 流 进行 了 描述 。 服 务 开发 人 员 定 义 了 模板 中 的 服务 ， 它 还 指定 了 服务 接口 。 
模板 (有 时 业界 也 称 为 配方 ) 指定 了 各 种 资源 : 虚拟 机 (VM) 图 像 、 连 通 性 定义 、 存 储 配置 等 。 


服务 提供 
服务 模板 | 
成 本 约束 策略 


云 服 务 开 = AR = 
rie 云 服 务 提 供 商 


云 服 务 消 费 者 


ae 





服务 提供 商 通过 使 用 约 来 条 件 、 HA, Per 从 而 为 服务 消费 者 提供 服务 。 在 
接受 服务 时 ， 消 费 者 和 提供 商 签订 了 一 项 合约 ， 包含 SLA 以 及 一 组 具体 可 衡量 的 SLA 问题 ， 称 其 为 服 
务 水 平 目标 (Service Level Objective, SLO)”, 

此 时 ， 提 供 商 可 以 修改 模板 来 满足 合约 要 求 。 然 后 ， 提 供 商 基于 模板 来 部 署 (或 提供 ) 服务 实例 。 
服务 提供 涉及 履行 合约 所 需 的 资源 。 

一 且 宛 成 部 署 ， 就 需要 对 服务 进行 维护 ， 直 到 合约 终止 ， 因 而 服务 结束 ， 支 撑 服 务 的 承诺 资源 被 
重新 部 署 。 从 业务 流程 的 角度 来 看 ， 服 务 维护 的 一 个 重要 组 成 部 分 是 监控 。 这 里 ， 相 关 事 件 将 被 自动 
收集 ， 并 据 此 采取 行动 ， 以 便 在 发 生 故障 时 增加 或 减少 容量 以 及 修复 服务 。 同 样 ， 在 这 一 阶段 升级 也 
会 目 动 完 成 。 目 动 扩展 和 自动 修复 功能 是 业务 流程 的 两 大 功能 。 


〇 ”SL0O 可 用 于 确定 审计 中 的 合 规 性 。 这 些 测 量 值 有 望 被 记录 下 来 。 
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正如 所 看 到 的 ， 该 模型 意味 着 业务 目标 和 接口 定义 能 以 某 种 形式 来 表示 ( 即 编 码 )。 电 信 管 理论 坛 
(Telemanagement Forum, TMF)? 开发 了 应 用 于 此 目标 的 形式 语言 结构 。DMTFVTMF 联合 白皮书 一 一 
《通信 服务 提供 商 的 云 管理 》 探 讨 了 DMTF 与 TMF 之 间 的 协同 效应 。 

从 进入 角色 开始。 这 里 ， 服 务 开发 人 员 需 要 指定 哪些 应 用 在 哪些 虚拟 机 上 运行 ， 业 务 流程 管理 器 
需要 处 理 哪些 事 件 (以 及 这 种 事件 发 生 时 究竟 要 做 什么 ) 和 需要 收集 何 种 信息 。 

应 用 配方 (或 模板 ) 描述 了 应 用 所 需 的 服务 ， 每 种 服务 都 可 进一步 定义 为 一 组 服务 实例 (运行 于 
单独 的 虚拟 机 上 )。 这 些 都 是 作为 文件 描述 符 提 供 的 。 每 个 指定 了 实例 数量 、 软 硬件 要 求 、 生 命 周 期 事 
件 及 其 “中 断 处 理 程序 ”的 配方 对 服务 进行 了 进一步 规定 ， 它 们 是 对 应 于 相应 脚本 的 指针 。 为 了 支持 
网 络 和 运营 管理 ， 配 方 还 可 以 指定 用 于 监控 和 配置 管理 的 探测 器 。 除 了 服务 开发 人 员 可 用 的 预定 义 探 
测 硕 之 外 ， 后 者 还 可 以 插入 独立 脚本 。 云 管理 和 业务 流程 存在 的 一 个 问题 是 ， 必 须 最 优 利 用 履行 客户 
义务 所 需 的 云 服 务 提 供 商 资源 〈 主 要 是 成 本 方面 ) 。 这 里 ， 优 化 是 一 项 复杂 的 任务 ， 因 为 存在 诸多 限制 
条 件 ， 包 括 遵守 客户 策略 和 各 种 规定 。 

另 一 个 问题 是 为 客户 提供 业务 流程 工具 ， 以 便 客户 可 以 控制 自己 的 基础 设施 。 最 终 ， 提 供 商 可 能 
会 与 客户 分 享 一些 自 己 的 业务 流程 工具 。 由 于 业务 流程 涉及 与 业务 活动 的 互通 ， 因 而 采用 工作 流 支 持 
工具 正在 成 为 预期 功能 。 例 如 ，VMware8 vCenter™ Orchestrator "提供 了 一 种 预 构建 工作 流 库 以 及 用 于 设 
计 定 制 工作 流 的 工具 。 可 以 使 用 基于 JavaScript 的 脚本 引擎 来 创建 新 的 工作 流 块 。 策 略 引擎 根据 所 定义 
的 策略 来 启动 合适 的 工作 流 来 响应 外 部 事件 。 

另 一 个 重要 的 实例 (在 某 种 程度 上 ， 可 以 看 作 是 业务 流程 管理 需 的 基准 ) 是 Amazon AWS Cloud- 
Formation 服务 ， 它 提供 了 一 种 管理 AWS 基础 设施 部 署 的 机 制 。 è 

正如 将 要 看 到 的 那样 OpenStack 的 业务 流程 管理 器 Heat 采用 了 AWS CloudFormation 的 术语 和 
模板 格式 ， 而 在 其 早期 的 业务 流程 中 ， 围 绕 AWS CloudFormation 为 用 户 提供 的 相同 工具 和 接口 之 间 的 
互通 开展 了 大 量 工 作 。 采 用 AWS CloudFormation, ， 所 有 资源 和 从 属 关系 都 在 模板 文件 中 进行 声明 。 每 种 
模板 均 定 义 了 与 服务 相关 的 资源 集合 ， 以 及 它们 之 间 的 从 属 关 系 。 将 实际 上 代表 某 种 基础 设施 的 集合 
称 为 一 个 堆栈 。 思 路 是 将 给 定 堆栈 中 的 大 量 资源 看 作 是 单个 实体 ， 它 可 以 通过 一 条 create 或 delete fy 
令 来 创建 (或 删除 ) 。 

同时 ， 当 对 堆栈 模板 进行 更 新 时 ， 堆 栈 也 被 〈 自 动 ) 更 新 。 此 外 ,一 旦 指定 了 模板 ， 则 可 以 对 整 
个 堆栈 进行 复制 ， 甚 至 将 其 移动 到 不 同 的 数据 中 心 ， 甚 至 是 不 同 的 云 。 

图 7. 9 对 这 一 概念 进行 了 描述 。 这 里 ， 模 板 定义 了 之 前 讨论 的 基础 设施 : 负载 均衡 器 ， 用 于 在 3 S 
相同 服务 器 之 间 分 配 流量 。 为 使 服务 看 起 来 更 真实 一 些 ， 还 添加 了 后 端 数据 库 。 这 里 涉及 两 个 网 络 : 一 
个 网 络 在 负载 均衡 器 和 服务 器 之 间 共 享 ， 另 一 个 网 络 在 服务 器 和 数据 库 之 间 共 享 。 使 用 一 系列 | cre- 
ate, delete, create} 操作 ， 首 先 在 云 中 创建 整个 基础 设施 ， 然 后 在 另 一 个 云 中 进行 复制 。 当 然 ， 这 里 
假设 云 提供 商都 支持 相同 的 模板 ， 正 如 将 在 下 一 节 中 看 到 的 那样 ，OpenStack 项 目 已 经 通过 创建 标准 以 
及 实现 它 的 软件 达到 了 预期 目标 。 

根据 本 节 开 头 提 出 的 思路 ， 强 调 在 创建 (或 删除 ) 堆栈 时 ,模板 中 指定 的 所 有 资源 同时 被 实例 化 
(或 删除 ) 。 在 堆栈 的 生命 周期 中 ， 资 源 之 间 声 明 的 从 属 关 系 将 会 自动 得 到 维护 。 

首先 ， 亚 马 逊 在 世界 各 地 部 署 了 拥有 已 知 URL (Uniform Resoure Locator， 统 一 资源 定位 符 ) 的 
CloudFormation 端点 。 参 考 本 地 地 理 端点 能 够 减少 时 延 。 正 如 将 看 到 的 ， 一 些 功能 性 指标 取决 于 端点 的 
选择 。 

该 模板 是 使 用 JavaScript 对 象 表示 法 (JavaScript Object Notation, JSON) 格式 编写 的 。 除 了 版 本 号 
和 描述 字段 之 外 ， 它 还 包含 以 下 字段 : 资源 、 参 数 、 上 映射、 条 件 和 输出 。 在 图 7. 10 的 帮助 下 ， 本 书 依 
次 对 它们 进行 回顾 。 





O TMF 创建 于 1988 年 ， 其 名 称 为 O0SU 网 络 管理 论坛 ， 旨 在 协助 其 成 员 解 读 OSI 标准 ， 以 开发 可 互 操作 的 网 络 管理 解决 方 
案 。1998 年 ， 该 组 织 更 名 为 电信 管理 论坛 ， 且 从 此 一 直 在 快速 发 展 。 

四 ”这 一 术语 (业界 非常 流行 ) 是 在 Jelle Frank van der Zwet 的 白皮书 中 定义 的 : “在 迁移 到 云 环境 的 情景 下 , “进入 和 角色” 
是 指 将 应 用 、 数 据 或 二 者 部 署 到 所 选择 的 云 基础 设施 (公共 云 、 私 有 云 或 混合 云 ) Eo” 

O ”这 一 术语 已 被 广泛 采用 ， 特 别 是 OpenStack 组 织 甚至 影响 到 其 名 称 。 

@ IETF 已 经 对 该 格式 进行 了 标准 化 。 
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-< aan ZZAN 


ZIN < SSA 


NA 
vesSN 
DA 
LP 


S2 


F VAa 
aes 


VAMA 


图 7.9 BREIE Cae | 


"AWSTemplateFormatVersion" : <date> 
"Description" : <string> 


"Resources" : 
{ <resource-name/type/properties list> 
h 


"Parameters" : 
{ <parameter list> 


}, 


"Mappings" : 
{ <mapping/key/value list> 


"Conditions": 
{ <name/intrinsic function/arguments list> 


"Outputs" : 


} 
} 


“图 7.10 AWS CloudFormation 模板 


术语 资源 是 指 虚 拟 机 实例 或 任何 其 他 AWS 预定 义 对 象 (如 安全 组 或 和 动 扩展 组 一 很 快 将 看 到 具 
体 实例 ) 。 我 们 为 每 种 资源 分 配 一 个 资源 名 称 ， 且 在 模板 内 资源 名 称 是 唯一 的 。 

资源 类 型 是 资源 规范 的 另 一 部 分 。 此 外 ， 还 可 以 声明 与 资源 相关 的 一 组 资源 属性 ， 每 项 声明 均 采 
用 名 称 / 键 值 对 的 形式 。 

属性 值 可 能 只 在 运行 时 才 是 已 知 的 ， 因 而 模板 语法 允许 使 用 内 部 函数 而 不 是 静态 值 。 资 源 项 是 唯 
一 的 强制 性 项 ， 其 余 项 均 是 可 选项 。 

参数 只 是 一 个 名 称 字 符 串 ， 其 规范 可 能 列 出 限制 条 件 ， 这 些 条 件 会 影响 到 参数 的 取 值 。 

映射 能 够 实现 参数 值 目 动 分 配 。 人 们 可 以 定义 参数 值 的 一 个 子 集 ， 并 将 其 与 一 个 键 相 关联 。 键 的 
典型 实例 是 地 区 名 。 所 有 与 区 域 有 关 的 键 值 (如 当前 时 间或 当地 法 规 ) 均 被 自动 分 配给 相应 参数 . 
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条 件 只 是 一 种 程序 工具 。 它 们 是 用 于 将 参数 值 相互 比较 或 与 常量 进行 比较 的 布尔 函数 。 如 果 比 较 
的 结果 为 正 ， 则 创建 资源 。 当 创建 或 更 新 堆栈 (直到 那 时 ) 时 ， 需 要 对 所 有 条 件 进 行 评估 。 

输出 是 声明 专门 支持 反馈 机 制 的 参数 。 最 终 用 户 可 以 通过 describe - stack 命令 来 查询 任何 输出 值 。 
此 外 ， 还 可 以 使 用 条 件 来 引导 键 值 分 配 。 

回 到 早期 的 Web 服务 实例 ， 可 以 看 到 如 何 构 建 模 板 来 支持 自动 扩展 一 一 支持 弹性 的 、 业 务 流程 管 
理 融 提供 的 服务 。 特 别 是 在 AWS 中 ， 自 动 扩展 功能 可 以 根据 用 户 定 义 的 策略 以 及 运行 时 的 特性 ( 如 通 
过 监视 来 衡量 应 用 的 “运行 状况 ”) 来 启动 或 终止 实例 。 通 过 改变 实例 的 计算 能 力 ， 可 以 实现 垂直 扩 
展 ， 或 通过 改变 负载 均衡 实例 的 数量 来 实现 水 平 扩展 。 特 别 是 能 够 展示 云 环 境 独 特 经 济 优势 的 水 平 扩 
E: 在 物理 部 署 中 ， 需 要 保持 有 额外 的 服务 右 处 于 待机 状态 ， 以 期 增加 负载 (或 所 有 服务 需 的 实际 负 
载 平衡 ， 而 服务 器 未 得 到 充分 使 用 ) ， 但 在 云 环境 中 ， 当 需求 达到 指定 靖 值 时 ， 能 以 实时 形式 部 署 一 个 
额外 服务 器 实例 。 相 反 ， 当 需求 下 降 明 显 时 ， 可 以 关闭 多 余 的 实例 。 因 此 ， 只 有 在 需要 资源 时 ， 额 外 
资源 的 支出 才 会 发 生 。 

用 于 操作 涉及 一 组 Web 服务 器 环境 的 模板 -将 在 资源 报头 下 指定 一 组 AWS:: AutoScaling: : Auto- 
ScalingGroup， 它 列 出 了 可 用 性 区 域 、 配 置 名 称 ( 另 一 个 资源 ， 指 向 要 局 动 实例 的 图 像 ) ， 以 及 组 的 最 
小 尺寸 和 最 大 尺寸 等 属性 。 

如 果 和 希望 向 操作 人 员 通 知事 件 (一 项 有 趣 的 特征 )， 则 通知 主题 也 可 以 指定 为 类 型 为 AWS: : SNS: : Topic 
的 资源 ， 该 资源 是 指 适当 的 资源 一 一 端点 (操作 人 员 的 电子 邮件 )， 并 指定 协议 (“电子 邮件 ”)。 在 这 
种 情况 下 ， 公 共 组 规范 也 将 列 出 特定 的 通知 消息 字符 串 (如 “实例 启动 ” “实例 终止 ”或 “错误 ”, 后 
者 也 提供 适当 的 错误 代码 ) 。 i 

接 下 来 ， 可 以 使 用 资源 类 型 AWS: : AutoScaling: : ScalingPolicy 来 规定 放大 和 缩小 策略 。 也 可 以 将 触 
发 放大 (或 缩小 ) 的 实际 告警 事件 指定 为 资源 ， 如 “类 型 " : AWS: : CloudWatch: : Alarm, fi Ql, WR 
放大 需求 是 CPU 狸 发 利用 率 超过 80% 达 5min， 则 扩展 告警 的 属性 将 包括 使 用 WS / EC2 命名 空间 Met- 
ricName: CPUUtlilization 、Period: 300 和 Threshold: 90, AlarmActions 是 指 上 面 定 义 的 扩展 策略 名 称 。 这 里 
使 用 的 内 部 函数 是 ComparisonOperator， 其 值 为 CreaterThanThreshold , 

需要 指定 的 另 一 种 资源 是 负载 均衡 器 本 身 ， 类 型 为 AWS: : ElasticLoadBalancing: : LoadBalancer， 其 
属性 包括 要 监听 的 端口 号 (假定 使 用 的 Web 服务 器 已 知 ) 、 实 例 端 口号 和 协议 (HTTP ) 。 

最 后 但 并 非 最 不 重要 的 是 ， 必 须 创 建 用 于 描述 InstanceSecurityGroup 类 型 的 实例 安全 组 的 资源 。 典 
型 的 用 途 是 支持 基于 安全 外 壳 (Secure Shell, SSH?) 的 访问 仅 限于 前 端 一 一 负载 均衡 器 。 

参数 部 分 定义 了 上 述 结构 : 允许 的 实例 类 型 、 特 定 端口 号 、 操 作 人 员 的 电子 邮件 、SSH 访问 的 密 
钥 对 以 及 (CIDR) IP 地址 模式 。 

映射 部 分 提供 参数 值 (在 AWS 中 进行 预定 义 ) ， 输 出 部 分 将 列 出 唯一 的 输出 一 一 服务 器 提供 的 网 
站 URL。 这 可 以 使 用 内 部 函数 来 实现 。 当 然 ，URL 的 方案 是 htp， 字 符 串 的 其 余部 分 通过 内 部 函数 
GetAtt 获得 ， 其 中 包含 两 个 参数 一 一 资源 部 分 中 指定 弹性 负载 均衡 器 资源 的 名 称 以 及 字符 串 DNSName。 
这 两 个 字符 串 可 以 使 用 内 部 函数 Join 和 1 个 空 分 隔 符 级 联 起 来 。 因 此 ， 如 果 弹 性 负载 均衡 器 的 名 称 是 
MyLB， 则 输出 部 分 如 下 所 示 : 


"Outputs": 
g 
"URG": 

{Value”: 

i "Pn: Join”; ("", [BECB //", 
{"Fn::GetAtt": ["MyLB", 
"DNSName"] 

}1] 

} 


} 


”具有 本 节 所 述 能 力 的 超 集 的 实际 即 用 型 样本 模板 。 
本 章 后 面 ， 在 回顾 公 钥 密码 学 的 情境 中 将 讨论 这 一 协议 。 
© Join [x, "d", y] 用 于 将 字符 串 x、 分 隔 符 “d” 和 字符 串 y 级 联 起 来 。 
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正如 前 面 已 经 提 到 的 那样 ， 详 细 描 述 AWS CloudFormation 实例 事 出 有 因 因为 它 是 一 个 基准 。 
为 此 ，OpenStack 中 的 业务 流程 管理 器 采纳 了 相同 模板 ， 这 些 将 在 下 一 节 中 进行 介绍 。 当 然 ,， 模板 只 是 
定义 了 需要 做 的 事情 ， 而 如 何 做 是 另 一 回 事 。OpenStack 是 一 个 开源 项 目 ， 它 允许 我 们 了 解 云 业务 流程 
的 内 部 工作 原理 ， 甚 至 可 以 参与 相关 软件 的 开发 。 

正如 前 面 所 说 ， 业 务 流程 编排 可 以 在 不 同 级 别 执行 。 本 书 将 在 下 一 节 中 讨论 堆栈 级 业务 流程 的 实 
现 方案 ， 并 返回 到 业务 流程 编排 这 一 主题 ， 它 包含 附录 A TOSCA 讨论 中 的 业务 逻辑 。 





7.3.2 OpenStack 中 的 业务 流程 和 管理 «ee 


首先 ， 关 于 OpenStack 本 身 我 们 简单 介绍 一 下 。 用 组 织 自身 的 话 讲 ， 其 软件 “... ……. 是 一 种 能 够 
控制 整个 数据 中 心 大 型 计算 、 存 储 和 网 络 资源 池 的 云 操作 系统 。 在 赋予 用 户 通过 Web 接口 提供 资源 的 
同时 ， 所 有 这 些 资 源 通过 为 管理 员 提 供 控制 功能 的 仪表 板 进行 管理 ”。 

该 项 目 由 OpenStack 基金 会 有 组 织 地 提供 支持 。OpenStack 基金 会 的 资金 (至 少 是 部 分 资金 ) KA 
公司 赞助 ， 但 在 其 他 方面 OpenStack 基金 会 吸引 了 成 千 上 万 的 成 员 ， 且 其 个 人 会 员 是 免费 的 。Openstack 
基金 会 的 战略 性 管理 是 由 董事 会 (Board of Directors, BoD) 提供 的 。 董 事 会 代表 看 不 同类 型 的 成 员 。 
技术 委员 会 (Technical Committee, TC) 负责 定义 并 指导 OpenStack 软件 的 技术 方向 。 软 件 用 户 的 支持 
和 反馈 由 用 户 委 员 会 负责 。 

实际 上 ， 在 描述 OpenStack 组 件 时 ， 本 节 是 本 书 的 一 个 高 潮 ， 因 为 它 最 终 汇 集 了 其 他 章节 的 材料 。 
OpenStack 的 软件 组 件 完全 对 应 于 前 几 章 中 所 研究 的 功能 实体 一 一 存在 着 一 种 用 于 计算 的 组 件 ( 即 对 主 
机 的 管理 ， 且 主机 能 够 提供 由 托管 虚拟 机 共享 的 CPU) ,， 它 支持 虚拟 化 ; 存在 着 一 种 负责 联网 的 组 件 和 
一 种 负责 存储 的 组 件 。 负 责 与 所 有 这 些 组 件 进行 交互 的 是 管理 功能 实体 ， 尤 其 包括 业务 流程 、 身 份 和 
访问 管理 (这 将 在 本 章 最 后 一 节 中 进行 讨论 ) 等 管理 功能 实体 。 需 要 注意 的 是 ， 在 调用 这 些 “ 组 件 ” 
时 必须 非常 小 心 ， 因 为 这 些 组 件 都 无 法 代表 简单 的 架构 实体 ， 如 机 吉 或 进程 或 库 。 正 如 将 要 提 到 的 ， 
一 些 组 件 将 可 执行 图 像 、 各 种 库 和 Shell 脚本 结合 起 来 。 

根据 先前 讨论 的 API 术语 ，OpenStack 文档 将 用 于 实现 HTTP 服务 器 (通过 REST API 来 访问 ) 的 组 
件 部 分 称 为 服务 。 重 要 的 是 要 理解 ， 在 物理 主机 上 部 署 OpenStack 软件 是 完全 不 同 的 一 件 事 。 总 的 来 
说 ， 部 署 这 些 组 件 没 有 一 成 不 变 的 方法 。 我 们 将 提供 具体 的 实例 ， 需 要 注意 的 是 部 署 问题 几乎 都 可 归 
结 为 确保 与 运营 预算 相当 的 可 靠 性 。 

首先 ， 仔 细 观 察 组 件 。 每 一 个 组 件 都 与 负责 其 软件 开发 的 单独 项 目 相 关 。 组 件 名 称 及 其 关联 项 目 
可 以 由 OpenStack 文档 替代 使 用 。 

OpenStack 计算 组 件 〈 是 在 名 为 Nova 的 项 目 中 开发 的 ) 包含 用 于 管理 所 有 虚拟 机 生命 周期 的 功能 
实体 ， 因 为 涉及 虚拟 机 的 创建 、 调 度 和 关闭 。 在 计算 中 ,控制 器 ( 云 控 制 器 、 卷 控制 器 和 网 络 控 制 器 ) 
分 别 负 责 处 理 计算 资源 、 块 级 存储 资源 和 网 络 资源 。 

OpenStack 联网 组 件 (在 Neutron 项 目 中 开发 ) 涉及 为 所 有 其 他 组 件 提供 网 络 连接 支持 。OpenStack 
管理 指南 将 其 称 为 “其 他 OpenStack 服务 的 网 络 连接 即 服务 ”。 该 组 件 提供 的 服务 支持 网 络 连 接 和 寻 址 ， 
但 重要 的 是 ， 还 存在 一 个 可 以 插入 其 他 软件 的 地 方 。 目 前 ， 本 地 Neutron 软件 支持 为 所 有 API 配置 TLS 
(Transport Layer Security， 传 输 层 安全 ) 协议 ， 并 实现 了 负载 均衡 器 即 服 务 (Load Balancer as a Service, 
LBaaS) 和 防火 墙 即 服务 (Firewall as a Service, FWaaS)。 

Neutron 还 文 持 创建 路 由 咽 ， 这 些 路 由 器 是 部 署 在 节点 上 的 虚拟 机 网 关 ， 而 Neutron L3 代理 软件 则 
运行 于 节点 上 。 除 此 之 外 ， 路 由 器 为 浮动 IP 地 址 (RFRA ASH IP Hott) 执行 NAT. Neutron 
设计 的 独特 之 处 在 于 ， 这 一 地 址 不 是 通过 DHCP ( Dynamic Host Configuration Protocol ， 动 态 主 机 配置 协 
议 ) 分 配 或 静态 设置 的 。 关 于 这 一 点 ， 客 户 操 作 系 统 不 知道 ， 因 为 传输 到 浮动 IP 地 址 的 数据 包 是 由 
Neutron L3 代理 专门 进行 处 理 的 。 这 种 安排 提供 了 很 大 的 灵活 性 ， 因 为 浮动 (公有 ) 和 专用 IP 地址 可 
以 在 任何 网 络 接口 上 同时 使 用 。 

为 了 处 理 详细 的 网 络 管理 信息 ，Neutron 支持 插件 。 可 以 预见 ， 存 在 着 一 个 称 为 Open Daylight 的 开 
Ui SDN (Software Defined Network ， 软 件 定义 网 络 ) WA (Linux 基金 会 的 一 部 分 ) 。 推 荐 读者 访问 该 项 
目 网 站 ， 该 网 站 提供 了 用 于 实现 SNMP 和 NETCONF 的 插件 的 详细 实例 。 显 而 易 见 ，NETCONF 在 SDN 
情境 中 意义 重大 。 当 然 ， 还 存在 其 他 的 实现 方案 ,包括 若干 种 专 有 实现 方案 。 插 件 在 后 端 运行 。 前 端 
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REST API 支持 包括 创建 和 更 新 租户 网 络 以 及 特定 虚拟 路 由 器 等 功能 。 

就 存储 而 言 ，OpenStack 包含 两 个 项 目 : Swift 和 Cinder。 前 者 用 于 处 理 非 结构 化 数据 对 象 ， 而 后 者 
提供 对 持久 性 块 存储 的 访问 〈 这 里 再 次 预 留 有 插入 其 他 块 存 储 软 件 的 空间 ) 。 

服务 组 件 (在 Glance 项 目 中 开发 ) 也 与 存储 (相当 专业 的 类 型 ) 相关 。 顾 名 思 义 ， 该 服务 负责 处 
理 存 储 和 检索 虚拟 机 图 像 的 注册 表 。 图 像 数 据 库 的 状态 在 Glance 注册 表 中 进行 维护 ， 而 通过 Glance API 
来 调用 服务 。 

认证 和 访问 授权 组 件 在 OpenStack Keystone 项 目 中 执行 ， 该 项 目 涉 及 身份 和 访问 管理 。 鉴 于 这 一 问 
题 的 独特 之 处 ， 专 门 用 了 单独 一 节 (本 章 最 后 一 节 ) 来 讨论 这 些 问题 。 

最 后 ， 存 在 着 3 种 管理 和 业务 流程 编排 组 件 。 用 户 接 口 在 “ 旧 ”CLI (Command Line Interface， 命 
令 行 界面 ) 表单 和 基于 Web 的 门户 网 站 中 是 可 用 的 ，OpenStack 信息 板 是 作为 OpenStack Horizon 项 目的 
一 部 分 开发 的 。 另 两 种 组 件 是 : (OpenStack Ceilometer 项 目 开 发 的 遥测 ”， 主 要 负责 计量 (通过 监控 来 
实现 ) ; @OpenStack Heat 项 目 开 发 的 业务 流程 。 为 了 解决 这 些 问 题 ， 需 要 更 加 深入 地 了 解 OpenStack 
的 架构 ， 并 通过 一 些 部 署 实例 进行 说 明 。 

在 涉及 这 一 话题 时 ， 必 须 牢记 正版 软件 模块 可 以 在 任何 地 方 运行 ， 而 OpenStack 设计 在 定义 高 级 软 
件 接口 (包括 REST API A RPC) 方面 已 经 迈 出 一 大 步 ， 以 确保 管理 活动 相互 影响 的 方式 与 便 件 部 署 无 
X. RE, WA “MWER” 这 个 词 是 非常 重要 的 。 根 据 上 下 文 ， 它 有 两 层 含义 : 也 子 程序 调 
用 一 一 它 是 活动 中 使 用 的 编程 结构 ; @) 传 递 消息 一 一 这 是 活动 之 间 的 交互 方式 ”。 要 牢记 的 另 一 件 重要 
事情 是 ， 为 了 确保 可 靠 性 ， 预 计 将 在 多 台 机 器 上 复制 数据 和 代码 ， 因 而 这 里 的 活动 实际 上 可 以 被 知 干 
个 相同 过 程 所 支持 。 当 一 个 代码 单元 运行 时 ， 它 运行 于 特定 机 器 上 ， 因 而 为 了 说 明 事 件 的 关键 序列 ， 
不 存在 复制 的 最 小 部 署 是 非常 有 用 的 。 一 旦 理解 了 这 一 点 ， 则 接 下 来 要 理解 的 是 ,与 性 能 、 可 徘 性 和 
法 规 相 关 的 要 求 不 同 ， 软 件 组 件 能 够 上 且 可 能 需要 不 同 的 部 署 。 

图 7.11 提供 了 第 一 个 部 署 实例 。 我 们 将 托管 虚拟 机 的 数据 中 心中 的 主机 称 为 计算 节点 。 因 此 ， 每 
个 数据 中 心 必 须 至 少 拥有 一 个 计算 节点 。 除 了 运行 管理 程序 和 托管 客户 虚拟 机 之 外 ， 计 算 节 点 还 运行 
属于 管理 基础 设施 的 各 种 应 用 。 一 些 应 用 (将 其 称 为 代理 ) 与 其 他 组 件 〈 因 而 充当 客户 端的 角色 ) 发 
起 交互 ; 其 他 应 用 响应 别处 发 起 的 通信 (因而 充当 服务 器 的 角色 ) 。 通 常情 况 下 ， 有 些 应 用 可 能 会 根据 
具体 情况 充当 客户 端 或 服务 器 的 角色 。 

就 虚拟 机 管理 程序 而 言 ，OpenStack 通过 特定 的 计算 驱动 程序 与 几 个 主要 的 虚拟 机 管理 程序 进行 交 
H, 但 交互 程度 有 所 不 同 。 

实际 上 ， 计 算 代理 正在 创建 和 部 署 虚拟 机 。 它 充当 调度 器 的 服务 器 (将 在 控制 器 节点 的 情境 中 进 
行 讨论 ) ， 但 它 在 处 理 中 央 资 源 数据 库 、 图 像 节 点 和 存储 节点 时 充当 客户 端 ， 它 们 分 别 保 存 了 Glance 图 
像 注 册 表 和 各 种 存储 类 型 ( 块 或 对 象 ) 。 

存在 于 所 有 3 种 节点 中 的 遥测 代理 收集 了 业务 流程 中 使 用 的 性 能 数据 ， 本 书 将 很 快 对 这 一 问题 进 
行 讨论 。 

最 后 ， 控 制 器 节点 位 于 云 管理 的 核心 。 首 先 ， 它 包含 全 局 资源 数据 库 ”， 在 介绍 计算 代理 时 曾经 提 
及 过 。 由 于 在 实际 的 大 规模 部 署 中 ， 这 一 数据 库 被 复制 ， 因 而 存在 着 一 种 称 为 Nova Conductor 的 前 端 ， 
它 主 要 负责 处 理 计 算 代 理 接口 。 

调度 器 负责 配置 功能 实体 ” 。 它 需要 决定 创建 新 虚拟 机 的 位 置 ( 即 在 哪个 计算 节点 上 创建 ) ， 以 及 
在 哪个 存储 节点 上 创建 新 的 块 存储 卷 。 前 者 使 用 Nova 调度 器 ， 而 后 者 使 用 Cinder ia] BE ai o 


© É OpenStack 软件 的 早期 版 本 中 ，OpenStack Cloud Watch 项 目 (AWS Cloud Watch 服务 类 似 的 功能 ， 它 支持 告警 设置 、 指 
标 收集 和 日 志文 件 监 控 ) 中 开发 了 指标 收集 和 告警 配置 。 目 前 ， 这 一 项 目 已 经 被 Ceilometer 取代 。 

O ”我 们 试图 不 追究 OpenStack 项 目 名 称 的 词 源 ， 尽 管 这 本 身 就 是 一 项 有 趣 的 研究 。 当 涉及 业务 流程 编排 项 目 时 ， 其 名 字 是 
相当 合适 的 ， 绝 对 不 是 随机 的 。 我 们 的 文字 处 理 器 不 能 识别 “ 测 云 仪 ”这 个 词 ， 因 而 只 有 在 网 上 查找 该 词 的 准确 含义 。 
根据 美国 国家 科学 数字 图 书馆 的 统计 数据 ， 测 云 仪 是 “使 用 激光 或 其 他 光源 来 确定 云 底 高 度 的 设备 ”。 明 白 了 吧 ! 至 于 
Heat 项 目 ，OpenStack 网 站 主动 提供 对 项 目 名 称 的 解释 :“ 为 什么 叫 “Heat ( 热 )'? AA ERE AF!” 
甚至 更 高 级 的 活动 ， 这 些 活 动 是 前 面 讨论 的 系统 信息 块 (System Information Block, SIB) 分 布 式 执行 的 结果 。 

在 OpenStack 中 ， 选 择 的 数据 库 软件 是 MySQL 一 一 可 以 从 同名 开源 项 目 处 获得 。 
在 附录 A 中 ， 专 门 用 了 一 节 的 篇 幅 来 介绍 这 一 复杂 而 有 趣 的 课题 ， 需 要 通晓 优化 技术 ， 因 而 被 视 为 高 级 课题 。 
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Tree AIRE 
一 问题 (在 相当 简单 的 部 署 实例 中 ， 所 有 控制 器 组 件 都 在 相同 主机 上 运行 ) ， 因 为 它 似 乎 是 多 余 的 。 在 
回顾 组 件 之 间 的 实际 交互 方式 之 前 ， 我 们 将 逐步 介绍 一 种 简单 的 事件 流 ， 它 最 终 导致 了 虚拟 机 的 生成 : 

1) 事件 流 开 始 于 远程 用 户 使 用 提供 虚拟 机 的 请 求 ， 来 调用 控制 器 中 的 API (更 确切 地 说 ， 是 Nova 
API 服务 器 ) 。 然 后 ， 控 制 器 请 求 调度 器 查询 资源 数据 库 ， 以 确定 合适 的 计算 节点 〈 在 这 种 情形 中 ， 由 
于 只 有 一 个 计算 节点 ， 因 而 这 是 非常 容易 的 ) ， 且 命令 其 计算 代理 来 配置 虚拟 机 ”。 

2) 计算 代理 符合 请 求 ， 查 询 资 源 数 据 库 以 获取 有 关 图 像 的 精确 信息 ， 从 图 像 节点 注册 表 中 获取 图 
像 标识 符 ， 最 后 从 存储 节点 加 载 图 像 本 号 ， 并 命令 虚拟 机 管理 程序 创建 一 个 新 的 租户 虚拟 机 。 

3) 计算 代理 将 有 关 新 虚拟 机 的 信息 传 回 到 控制 右 节 点 ， 并 请 求 网 络 控 制 妖 提供 连接 信息 。 

4) 网 络 控 制 器 更 新 资源 数据 库 ， 并 完成 网 络 配 置 。 

5) 类 似 地 ， 计 算 代 理 与 卷 控 制 器 进行 交互 ， 以 创建 存储 卷 并 将 其 连接 到 虚拟 机 。 

组 庸 置疑 ， 为 了 简化 讨论 并 完成 基本 流程 ， 我 们 省 略 了 几 项 基本 功能 。 当 然 ， 这 一 简单 序列 不 涉 
及 业务 流程 编排 ， 在 这 种 情况 下 也 是 不 必要 的 ， 这 是 因为 : “堆栈 ”只 包含 一 台 虚 拟 机 而 不 是 几 台 
机 器 的 基础 设施 ，@@ 假 定 由 堆栈 提供 的 服务 不 需要 自动 扩展 或 任何 其 他 需要 监 监视 和 目 动 干预 的 服务 。 
当 讨 论 一 个 更 加 复杂 的 实例 时 ， 业 务 流程 编排 将 会 很 快 进 入 我 们 的 视线 。 

但 最 明显 的 玖 忽 是 所 有 身份 和 管理 相关 事宜 ， 包 括 对 原始 请 求 的 认证 及 其 授权 。 本 书 将 在 下 一 市 
中 单独 讨论 这 个 问题 ， 将 会 看 到 与 身份 管理 相关 的 活动 贯穿 于 所 有 步 又 。 

现在 ， 在 每 个 OpenStack 组 件 内 各 个 部 分 之 间 ， 准 备 进一步 澄清 应 用 级 的 通信 特征 。 基 本 思路 是 任 
何 两 个 对 等 体 〈 即 客户 端 和 服务 器 ) 之 间 不 存在 共享 数据 ”。 

编写 OpenStack 软件 的 目的 是 创建 高 可 用 性 系统 。 高 可 用 性 是 可 靠 性 大 概念 的 一 个 方面 ， 本 章 参 考 
文献 [5] 将 其 定义 为 “系统 恢复 正确 操作 的 能 力 ， 它 支持 系统 在 某 些 组 件 出 现 故 障 时 恢复 提供 服 
务 " 。 高 可 用 性 通过 元 余 和 复制 系统 组 成 部 分 〈 在 我 们 的 实例 中 ,是 指 网 络 、 存 储 和 计算 组 件 ) 来 实 
现 ， 这 些 组 成 部 分 可 能 出 现 单 点 故障 (Single Point of Failure，SPoF ) 。 

复制 服务 器 在 称 为 群集 的 一 组 计算 机 上 运行 。 所 有 这 些 服务 器 必须 以 客户 病 的 一 个 服务 逢 出 现 ， 
如 图 7. 12 所 示 。 因 此 ， 将 其 中 的 一 台 机 器 指定 为 代理 服务 器 ， 负 责 在 其 他 服务 器 之 间 分 配 客户 端 请 求 
并 均衡 其 负载 。 代 理 本 身 不 是 单 点 故障 ， 因 为 集群 中 的 其 他 每 台 计 算 机 都 要 准备 好 承担 前 端 和 负载 均 
衡 功 能 。 


〇 ”细心 的 读者 可 能 会 问 这 里 使 用 的 是 什么 协议 。 我们 有 意 推迟 命名 这 一 协议 和 所 有 其 他 应 用 协议 ， 直 到 完成 对 事件 流 的 
描述 。 
O 需要 注意 的 是 ， 这 不 同 于 复制 。 例 如 ,集群 中 的 数据 库 服务 器 可 能 会 共享 其 中 的 复制 数据 。 


186 


第 7 章 云 内 部 的 运营 。- 篇 理 与 业务 流程 编排 -@ 


4 





i 
! 
1 
I 
t 
t 
1 
j 
I 
1 
I 
t 
i 
$ 
j 
| 
t 
t 
t 
f 
1 
I 
1 
t 
I 
>t 
| 
t 
I 
I 
t 
t 
! 
t 
1 
| 
$ 
i 
i 
! 
I 
I 
t 
' 


Sa a rr EN a aa 


* 
; W 
4 
| Pod 





顺便 提 一 F, 刚刚 描述 的 机 制 与 所 谓 的 双 活 模式 (所 有 服务 器 同时 运行 ) 相关 ， 但 并 非 在 集群 中 
实现 高 可 用 性 的 唯一 机 制 。 另 一 种 模式 是 主动 /被 动 模式 ， 其 中 额外 安排 一 人 台 服 务 器 保持 备用 状态 CLE 
为 热 备用 ) 但 不 在 线 ， 且 在 活动 服务 器 发 生 故障 或 过 载 的 情况 下 联机 。OpenStack 同时 文 持 两 种 模式 。 

但 是 ,集群 何 时 “知道 ”将 代理 功能 分 配给 男 一 台 服 务 器 ， 或 者 何 时 将 热 备 用 转 为 在 线 ? Ast, 
还 存在 男 一 = 其 作用 是 根据 配置 观察 集群 运行 是 否 正 常 ， 并 根据 情况 重新 对 其 
进行 配置 。 为 了 实现 这 一 监控 目的 ，OpenStack 目前 使 用 名 为 Pacemaker 的 软件 ， 它 是 集群 实验 室 
( Cluster Labs) 开发 的 产品 。 

迄今 为 止 ， 大 家 应 该 清楚 为 什么 在 客户 端 和 服务 器 之 间 不 能 共享 任何 状态 。 假 设 客户 端 发 送 两 条 
请 求 。 第 一 条 请 求 由 代理 指向 图 7. 12 中 的 顶级 服务 器 ， 第 二 条 请 求 由 代理 指向 底部 服务 器 。 如 果 在 客 
a AAE G 且 由 第 一 台 服 务 器 对 该 状态 进行 修改 ， 则 第 二 人 台 服 务 器 将 无 法 知道 状 

经 发 生 改 变 ! 

es a 设计 万 维 网 (World Wide Web, WWW) 协议 一 一 HTTP (全 球 网 络 协议 ) 
完全 符合 这 一 目标 : HTTP 客户 端 和 HTTP 服务 需 之 间 没 有 共享 状态 。 在 数 十 年 的 万 维 网 实践 中 ， 业 界 
已 经 学 会 如 何 开 发 和 部 署 高 效 的 服务 器 和 人 代理。 因此， 获取 所 有 可 用 和 正确 的 软件 ， 并 将 其 应 用 〈 重 
用 所 有 可 用 软件 ) 到 新 领域 意义 重大 ， 它 比 提供 Web 服务 更 为 普遍 。 

这 里 的 计算 模型 相当 简单 。HTTP 服务 器 是 用 于 监听 特定 端口 的 守护 进程 〈 或 线程 ) 。 当 它 获 得 一 
条 消息 (一 个 HTTP PDU) 时 ， 它 会 对 该 消息 进行 解析 ， 并 完成 一 次 性 行动 ， 最 初 只 限于 获取 一 份 文 件 
并 将 其 传 回 到 客户 端 ， 但 随后 〈 当 详细 讨论 这 一 问题 时 将 会 看 到 ) 变 得 越 来 越 复杂 ”。 两 台 不 同 服务 器 
可 能 在 相同 主机 或 不 同 主机 上 和 运行 一 一 服务 接口 保持 不 变 。 在 专用 主机 上 将 全 局 管理 服务 组 合 起 来 是 
非常 合理 的 ， 就 像 我 们 的 部 署 实例 中 给 出 的 情形 一 样 。 

为 此 ， 所 有 名 称 中 包含 API (Bl nova - api) 的 OpenStack 模块 都 是 提供 REST 服务 的 守护 进程 (将 
在 附录 A 中 进行 讨论 ) 。 

通过 高 级 消息 队列 协议 (Advanced Message Queuing Protocol, AMQP) 来 执行 守护 进程 之 间 的 通 
信 ”。 图 7.11 中 的 消息 队列 是 支持 此 项 功能 的 结构 。 

AMQP 可 以 从 管道 的 任 一 端 开始 启动 。 相 反 ，HTTP 事务 只 能 从 客户 端 启动 ， 因 为 HTTP 是 纯 客 户 
Sm ARF At PWN o 

O ”是 行动 而 不 是 协议 ! 

O 例如 ， 前 面 提 到 的 指向 调度 器 的 请 求 (事件 流 的 第 1 步 ) 通过 采用 AMQP 来 实现 。nova - compute 守护 进程 通过 虚拟 机 

管理 程序 的 API 来 创建 和 终止 虚拟 机 实例 ， 并 从 消息 队列 中 获取 一 条 请 求 ， 一 次 获取 一 条 。 
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OpenStack 中 的 业务 流程 编排 存在 3 个 问题 : 第 1 个 问题 涉及 云 应 用 ( 即 堆栈 ) 的 生命 周期 管理 规 
范 及 其 现实 示例 ; 第 2 个 问题 与 堆栈 状态 监视 有 关 ， 以 符合 运行 虚拟 机 的 规范 ; 第 3 个 问题 与 采取 补救 
行动 有 关 。 正 如 前 面 提 到 的 ，Heat 组 件 负责 解决 第 1 和 第 3 个 方面 ， 而 Ceilometer 则 负责 解决 第 2 个 
问题 。 

Heat 的 早期 目标 是 与 AWS CloudFormation 兼容 ， 以 便 能 人 够 将 已 与 AWS CloudFormation 协同 工作 的 服 
务 移植 到 OpenStack 上 。 相 反 ， 可 以 将 采用 OpenStack 在 云 中 开发 和 运行 的 服务 移植 到 AWS 上 。 实 际 
上 ， 这 种 云 可 能 会 突然 进入 AWS。 为 此 ，OpenStack 既 认 可 AWS CloudFormation 模板 ， 又 提供 与 AWS 
CloudFormation 兼容 的 API, 

随 着 时 间 的 推移 ，Heat 项 目 已 经 开发 出 自己 的 模板 一 一 准确 地 说 ， 是 HOT, Bil Heat Orchestration 
Template 的 缩写 。 模 板 本 身 具有 与 AWS CloudFormation 模板 相同 的 格式 和 语义 , 但 它 是 用 一 种 称 为 
YAML 语言 ”而 不 是 用 ISON 语言 来 描述 的 。 不 管 怎 样 ， 模 板 是 一 种 指定 基础 架构 资源 及 其 关系 的 文本 
文件 。 后 一 项 功能 实际 上 是 程序 性 的 ， 因 为 它 可 以 决定 创建 虚拟 机 以 及 分 配 存储 卷 和 网 络 连接 的 顺序 。 

另 一 项 编程 性 特征 可 概括 为 模板 具有 动态 特性 : 当 模 板 发 生变 化 时 ，Heat 需要 相应 地 修改 服务 。 
将 首先 开始 编排 业务 架构 Heat 部 分 的 计算 架构 的 描述 ( 即 计算 进程 方面 的 描述 )， 如 图 7. 13 所 示 。 





oe 


CLI 客 户 端 

















~ Bon ot 引擎 是 负责 根据 模板 规范 所 JERKIE. 用 户 接 口 1 功能 由 两 台 服务 器 (Heat A API TI Hea 
API -cfn) 执行 ， 它 们 分 别 为 HOT 和 AWS CloudFormation 兼容 服务 提供 REST API。 这 两 者 中 的 任何 一 
种 服务 仅 充 当 Heat 引擎 的 前 端 ， 通 过 它 和 AMQP 可 以 实现 通信 。 

毋庸 讳言 ， 这 种 架构 支持 在 可 用 机 器 之 间 以 比 早期 控制 器 架构 图 提出 的 方式 更 加 灵活 的 方式 分 配 
进程 。 所 有 相同 类 型 的 服务 器 都 可 以 通过 高 可 用 性 代理 进行 复制 和 访问 。 

除了 REST API 之 外 ，Heat 组 件 还 提供 了 命令 行 界 面 (CLI), 但 是 CLI 代理 将 命令 转换 为 REST 
API 业务 流程 编排 ， 因 而 Heat 引擎 不 直接 处 理 CLI。 这 些 命令 在 语义 上 与 API 相同 ， 因 为 它们 指 的 是 同 
一 性 能 。 接 下 来 按照 与 模板 、 堆 栈 、 资 源 以 及 与 资源 有 关 的 事件 的 相关 度 的 顺序 来 简要 介绍 命令 : 

1) template - show: 为 给 定 堆 栈 请 求 模 板 。 

2) template - validate; 请 求 模 板 使 用 特定 参数 进行 验证 。 

3) stack - create: 请 求 创建 堆栈 。 


O YAML 是 左 递归 的 首 字母 缩 略 词 : CIK “YAML 不 是 标识 语言 ”。 
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4) stack - delete: 请求 删除 堆栈 。 

5) stack - update: 请 求 更 新 堆栈 (根据 文件 或 URL 中 描述 的 数据 或 使 用 特定 参数 的 新 值 ) 。 

6) action - suspend 和 action — resume: 分 别 请 求 活 动 堆栈 执行 中 的 同名 操作 .。 

7) stack - list: 请 求 所 有 用 户 堆 栈 的 列表 。 

8) stack - show: 请 求 给 定 堆栈 的 描述 。 

9) resource —list: 请 求 属于 堆栈 的 资源 集合 。 

10) resource — metadata: 请 求 资源 的 元 数据 属性 ”。 

11) resource -show: 请 求 给 定 资源 的 描述 。 

12) event- list; 请 求 当 前 堆栈 中 所 选 资 源 的 事件 列表 。 

13) event - show: 请 求 特定 事件 的 描述 。 

Heat 还 提供 可 编程 扩展 的 工具 一 一 资源 插件 ， 它 扩展 了 基本 资源 类 ， 并 为 上 述 命 令 实 现 了 恰当 的 
处 理 程 序 方法 。 

迄今 为 止 , 已 经 解决 了 所 谓 的 Northern API (用 于 业务 流程 编排 的 用 户 接 口 ) 问题 。 两 台 API 服务 
器 都 充当 Heat 引擎 的 前 端 。 为 了 执行 这 些 命 令 ，Heat 引擎 依次 调用 Southern API (Nova API, Keystone 
API 等) 。 简 而 言 之 ， 调 用 次 序 是 由 创建 图 像 的 早期 工作 流 提 出 的 。 

OpenStack 业务 流程 编排 工作 的 其 余部 分 是 用 于 支持 告警 的 机 制 。 事实 上 ， 服 务 模板 的 早期 实例 是 
指 在 Heat 早期 版 本 中 部 分 模仿 的 AWS CloudWatch 服务 。 用 户 可 以 使 用 创建 和 更 新 告警 以 及 响应 告警 的 
机 制 。 有 关 详 细 信 息 ， 以 及 对 简单 但 深刻 的 用 例 测试 的 描述 ， 强 烈 推荐 CERN (欧洲 粒子 物理 研究 所 ) 
达 维 德 * KC GA (Davide Michelino) 的 暑期 学 生 报 告 。 ' 

然而 ，OpenStack 后 来 决定 不 再 使 用 AWS CloudWatch API， 而 是 依赖 于 Ceilometer。 因 此 ， 这 是 在 撰 
写本 书 时 OpenStack 所 采取 的 行动 。 

现在 讨论 Ceilometer。 正 如 前 面 已 经 提 到 的 ， 甚 目标 是 计量 ， 即 衡量 资源 的 使 用 率 。 在 电信 业务 中 ， 
计量 是 整个 收费 过 程 的 第 一 步 ， 而 其 他 步骤 是 评级 和 计 费 。 为 此 ，Ceilometer 提供 了 评级 引擎 可 用 于 开 
发 计 费 系统 的 API， 但 我 们 不 会 在 此 担心 此 事 。 我 们 关注 的 焦点 〈 严 格 按照 本 书 的 目标 ) 是 使 用 计量 
来 确定 何 时 需要 自动 扩展 操作 。 

因 过 去 每 个 0SS 项 目 存在 的 障碍 而 导致 Ceilometer 的 任务 复杂 化 : 大 型 系统 的 不 同 部 分 总 是 使 用 不 
同方 式 来 提供 管理 数据 ， 且 一 些 部 分 根本 不 提供 任何 数据 。 为 了 处 理 这 一 问题 ，OpenStack 必须 创建 种 
干 种 机 制 。 在 这 些 机 制 中 ， 如 果 采 用 相同 的 方法 ， 则 一 种 机 制 即 可 满足 要 求 。 

Ceilometer 模型 采用 3 种 类 型 的 参与 方 : 各 种 遥测 代理 、 遥 测 收 集 器 和 发 布 方 。 收 集 器 汇集 来 自 代 
理 (这 些 代 理 负责 管理 $ 类 OpenStack 组 件 : 计算 、 组 网 、 块 存储 、 对 象 存储 和 图 像 ) 的 数据 ， 然 后 将 
这 些 数据 传输 给 发 布 方 ， 发 布 方 将 其 存储 在 数据 库 中 或 将 其 传输 到 外 部 系统 。 引 和 人 这 一 术语 后 ， 我 们 
注意 到 ,为 了 编写 本 书 ， 收 集 嚣 和 发 布 方 实际 上 是 一 个 实体 ， 称 之 为 收集 器 。 在 图 7.11 相当 简单 的 配 
置 中 ， 将 代理 描绘 为 眼睛 ， 并 假定 以 通知 的 形式 将 其 数据 发 送 给 收集 需 。 

在 理想 系统 中 ， 每 种 组 件 都 有 一 个 代理 ， 用 于 通过 统一 消息 系统 (PA Oslo BA) 发 布 事件 通 
知 。 有 关 详 细 信息 ， 请 参阅 相应 的 OpenStack 文档 ， 但 需要 注意 的 是 ，AMQP 与 包含 其 他 消息 传递 机 制 
的 Oslo 总 线 兼 容 。 为 了 简单 起 见 ， 假 设 所 有 消息 都 通过 AMQP 进行 发 送 。 

第 一 种 (优选) 机 制 受 总 线 侦 听 器 代理 影响 ， 它 负责 处 理 所 有 通知 事件 并 产生 Ceilometer 样本 。 同 
时 ， 在 所 有 组 件 都 能 发 布 事件 通知 的 系统 中 ， 这 是 唯一 必需 的 机 制 。 

没有 统一 的 通知 实施 方案 ， 第 二 种 (次 优选 ) 附加 机 制 是 有 序 的 。 这 里 ， 实 际 用 于 创建 通知 的 推 
代理 需要 添加 到 每 个 受 监视 的 节点 上 。 且 如 果 由 于 某 种 原因 而 导致 无 法 实现 ， 则 就 会 转 问 第 3 种 机 
制 一 一 轮 询 代理 。 

轮 询 代 理 只 是 完成 其 名 称 所 上 暗示 的 动作 : 它 检 查 环 中 的 远程 节点 (通过 REST API 或 RPC), HP 
包括 等 待 指定 的 间隔 ” 。 这 是 最 不 推荐 的 方法 ， 因 为 其 实现 对 弹性 具有 负面 影响 。 


OQ ”此 概念 和 功能 来 自 AWS CloudFormation 模板 ， 它 支持 添加 资源 的 描述 类 元 数据 属性 ， 该 属性 将 资源 与 结构 化 数据 关联 


外“ 同时， 靠近 硬件 端的 是 检查 设备 ， 它 们 使 用 各 种 协议 (如 SNMP) 来 采集 数据 ， 然 后 将 其 传输 给 代理 。 
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代理 的 功能 和 运行 位 置 有 所 不 同 。 例 如 ， 计 算 代 理 在 计算 主机 上 运行 。 中 央 代 理 是 中 央 管 理 系统 的 一 部 
分 〈 根 据 之 前 的 命名 ， 应 当 将 其 称 为 控制 器 节点 )。 其 职责 包括 控制 节点 或 实例 以 外 的 资源 。 当 然 ， 收 集 器 
也 在 中 央 管 理 系统 上 运行 。 应 该 说 明 的 是 ， 可 能 存在 着 春 干 台 运 行 在 中 央 管 理 系 统 不 同 部 分 上 的 不 同 主机 
(或 者 在 高 可 用 性 集群 中 ,每 台 主 机 都 可 以 运行 所 有 这 些 部 分 ) 。Ceilometer 还 支持 对 代理 进行 配置 。 

将 收集 的 数据 存储 在 Ceilometer 数据 库 中 。Ceilometer 提供 两 组 API: 局 用 于 写 和 人 收集 器 的 API; 
@ 用 于 访问 数据 库 的 API。 与 所 有 其 他 组 件 一 样 ，API 服务 器 是 一 种 独立 进程 。 

图 7. 14 对 上 述 架 构 进 行 了 归纳 总 结 ， 它 描述 了 一 种 逻辑 消息 流 。 实 际 上 ， 所 有 组 件 都 通过 真实 的 
消息 总 线 进行 “ 互 连 ”， 也 束 是 说 ， 它 们 谈 取 和 写 人 相同 的 逻辑 “ 线 ”。 


| APIR F tir | 


A 
: 


到 外 部 系统 
<——> REST API 


e> AMQP 



















TO T E 

Ceilometer 的 另 一 个 特征 〈 对 我 们 来 说 ， 最 重要 的 一 项 功能 ) ER GR E A GY ET 
(如 “告诉 我 何 时 CPU 利用 率 达到 70% ”) 。OpenStack 专门 针对 这 一 能 力 定义 了 一 个 单独 模块 ", 但 是 
为 了 简单 起 见 ， 将 告警 计算 髓 看 作 是 收集 占 的 一 部 分 。 

将 使 用 图 7. 15 来 准确 说 明 遥 测 与 业务 流程 编排 (E Ceilometer 和 Heat) 之 间 的 互 连 关 系 。 回 到 讨 
论 AWS CloudFormation 时 引入 的 上 自动 扩展 实例 。 

为 了 知道 何 时 放大 (或 缩小 ) HERR, Heat 引擎 需要 关于 堆栈 实例 CPU 利用 率 的 反馈 信息 。 为 了 实现 
这 一 点 ， 可 以 根据 计算 代理 的 指标 来 定义 告警 。 在 Ceilometer 的 支持 下 ， 可 以 根据 模板 指定 的 规则 对 指标 
进行 评估 ， 并 将 异常 情况 报告 为 告警 通知 。 当 然 ，Ceilometer 本 身 并 不 负责 读 取 模板 一 一 只 有 Heat 引擎 才 
能 读 取 模板 。Ceilometer 只 需 为 Heat 引擎 提供 一 种 足够 灵活 的 API， 来 表达 自动 扩展 组 的 模板 规则 。 

在 左上 角 ， 对 HOT 模板 的 一 部 分 进行 定义 ， 并 基于 自动 扩展 组 的 CPU 利用 率 来 设置 告警 。 也 就 是 
说 ， 当 CPU 利用 率 超过 70 和 时， 服务 需 组 “扩大 ”， 即 添加 新 的 服务 器 实例 。OpenStack 手册 将 特定 属 
性 一 一 alarm_actions 定义 为 “ 当 状 态 转 换 为 告警 时 调用 的 URL (webhook) 列表 (这 是 它 的 原意 !) ”。 
模板 还 指定 了 收集 指标 和 所 使 用 统计 信息 的 周期 (例如 平均 值 ) 。 

当 挫 栈 创建 完毕 后 ， 即 可 根据 Heat 引擎 的 请 求 来 设置 告警 。 当 告警 “发 声 ” 时 ，Heat 引擎 将 通过 
创建 新 实例 来 采取 进一步 行动 ， 将 其 连接 到 网 络 等 。 类 似 地 ， 可 以 将 告警 设置 为 按 比例 减 小 ( 即 当 平 
均 CPU 利用 率 低 于 40% 时 )， 因 而 当 和 额外 实例 变 得 元 余 时 ， 即 可 将 其 取消 。 需 要 注意 的 是 ， 此 项 功能 
不 仅 表 现在 云 提供 商 的 运行 效率 ， 而 且 它 还 为 客户 节省 了 资金 ， 客 户 通常 会 为 每 一 实例 向 云 提 供 商 支 
付费 用 。 这 是 一 个 真正 的 弹性 实例 。 


© Ceilometer 告警 器 服务 。 
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模板 
"CPUAIarmHigh": 


"Type": "OS::Metering::Alarm", Heat 引 擎 
"Properties": 
{ 
“meter_name":" cpu_util", 
"description": "Scale-up if CPU > 70%", 
” “alarm_actions":[...ScaleUpPolicy", 
"AlarmUrl , 
Group“ 


Ceilometer API 





TENE, 需要 注意 OpenSiadk ep Chef Toppa, 在 上 一 
节 中 曾经 提 到 过 这 一 点 。 

前 面 讨 论 了 工作 流 工 具 。 在 编写 本 书 时 ，OpenStack 正在 积极 地 开发 一 种 工作 流 工 具 ， 并 将 其 作为 
Convection 项 目的 一 部 分 。 在 项 目 说 明 中 ， 工 作 流 被 称 为 任务 流 ， 且 计划 是 提供 任务 流 即 服务 (Task 
Flow as a Service，TFaS) ， 这 与 Amazon AWS 的 做 法 类 似 。 

服务 的 愿景 是 让 用 户 能 够 写 入 和 注册 工作 流 。 然 后 ， 应 用 可 以 调用 此 工作 流 ( 且 稍 后 还 会 检查 其 状态 
或 终止 工作 流 ) 。 业 务 流程 管理 器 的 工作 是 对 工作 流 中 的 每 次 状态 变化 做 出 反应 ， 并 调用 相应 任务 。 

该 服务 是 递归 的 ， 因 为 Heat 本 身 可 以 使 用 TFaS 来 管理 自己 的 任务 。 例 如 ， 任 务 流 可 以 调用 Heat 
API 来 启动 给 定 任 务 。 根 据 这 一 愿景 ，“ 业 务 流 程 编排 涉及 智能 创建 、 组 织 、 连 接 和 协调 基于 云 的 资 
源 ， 这 可 能 涉及 创建 任务 流 和 /或 执行 任务 。 

通过 结合 并 展示 迄今 为 止 描述 过 的 组 成 部 分 之 间 的 相互 作用 ， 图 7. 16 总 结 了 作者 对 OpenStack 业 
务 流程 编排 愿景 的 理解 。 同 时 ， 在 编写 本 书 时 ， 这 只 是 未 来 发 展 的 蓝图 。 





Heat API 4 28 


Heat 5|%* 





Ceilometer API 
Nova | Novara | 


Ceilometer 收集 器 
图 7. 16 集成 业务 流程 编排 架构 








右上 角 描 绘 的 部 分 是 其 他 模板 规范 Cefn 或 TOSCA) 的 泛称 ,每 种 规范 都 由 一 种 被 称 为 模型 转换 如 
的 实体 来 解释 。 本 书 将 在 附录 A 中 回顾 一 些 规范 实例 。 

通过 考虑 另 一 个 部 署 实例 〈 从 组 网 的 角度 ) 来 结束 本 节 内 容 ， 如 图 7. 17 所 示 。 该 图 对 图 7. 11 进 
行 了 修改 , 来 说 明 云 数 据 中 心 内 现代 节点 的 结构 。 就 像 在 人 体 解剖 学 书 中 一 样 ， 图 7. 17 描述 了 身体 的 
不 同 层次 (如 肌肉 或 骨骼 ) 。 这 里 来 观察 一 下 互 连 组 件 的 实用 方法 。 为 减少 杂乱 ， 省 略 了 图 像 节点 ， 但 
是 所 有 其 他 节点 都 存在 一 一 现在 被 复制 并 假定 在 集群 中 工作 。 








指挥 控制 网 


(公有 ) 浮 动 IP 网 





LY do dS ”图 7.17 使 用 OpenStack 节点 进行 组 网 

以 下 4 种 (第 2 级 ) 网 络 相互 之 间 是 完全 独立 的 ， 

1) 存储 网 仅 用 于 访问 存储 ， 因 而 仅 用 于 计算 节点 和 存储 节点 的 互 连 。 

2) 专用 网 仅 用 于 托管 虚拟 机 之 间 的 通信 。 

3) 指挥 控制 网 络 仅 用 于 业务 流程 编排 和 管理 。 

4) 公有 网 允许 连接 到 互联 网 。 正 是 由 于 这 个 原因 ， 公 有 网 使 用 如 前 所 述 的 浮动 IP 地 址 。 

将 这 些 网 络 分 离开 来 或 多 或 少 具有 一 定 的 典型 性 -一 一 无 论 是 出 于 安全 方面 的 考虑 还 是 用 于 区 分 容 
量 ， 因 为 不 同 用 途 拥 有 不 同 的 带宽 需求 。 作 为 最 低 限 度 ， 专 用 网 、 公 有 网 和 指挥 控制 网 至 少 是 可 取 的 。 


7.4 认证 与 访问 管理 


身份 和 访问 管理 (Identity and Access Management, IAM) SAFENA SENEDE. 两 者 
都 是 云 计 算 不 可 或 缺 的 : 在 虚拟 机 (或 堆栈 ) 的 整个 生命 周期 内 ， 对 虚拟 机 (或 堆栈 ) 应 用 任何 操作 
之 前 ,管理 和 业务 流程 系统 必须 知道 谁 正在 请 求 操作 以 及 请 求实 体 是 否 拥 有 操作 权 。 

对 身份 和 访问 管理 (IAM) 的 需求 是 泛 在 的 ， 而 且 在 其 他 情境 下 是 显而易见 的 。 每 台 机 器 (无 论 
是 物理 的 还 是 虚拟 的 ) 均 需 要 拥有 自己 的 TAM 机 制 (操作 系统 的 一 部 分 )， 来 控制 对 程序 和 数据 的 访 
问 。 应 用 还 可 以 拥有 自己 的 IAM 来 控制 对 其 服务 的 访问 。 不 同情 境 中 的 IAM 功能 在 权限 方面 是 分 级 
的 ; 与 云 管理 系统 相关 的 是 享有 最 高 特权 的 。 这 与 虚拟 主机 的 管理 权限 层次 结构 类 似 ， 如 图 7. 18 所 
示 。 稍 后 会 进一步 解释 采用 管理 权限 层次 结构 的 原因 。 此 处 暂时 回顾 一 下 第 3 章 的 内 容 ， 来 介绍 特权 
级 别 和 保护 环 的 概念 。 


日 ”推荐 学 习 Mirantis OpenStack@@ 的 参考 架构 ， 文 档 的 第 17 页 给 出 了 一 种 包含 5 种 网 络 的 架构 一 一 在 该 实例 中 ， 行 政和 管理 
网 络 是 分 开 的 。 
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主机 
应 用 应 用 
操作 系统 操作 系统 
z 虚拟 机 
虚拟 机 管理 程序 


- $ 物理 机 | 









图 7.19 归纳 了 IAM 领域 包含 的 主要 内 容 。 简 而 言 之 ， 它 涉及 身份 信息 的 生命 周期 和 相关 性 ， 以 及 
实体 的 认证 和 授权 。 这 些 身份 信息 代表 与 实体 对 应 的 不 同 角色 。 将 实体 可 以 被 全 面 一 致 识别 为 唯一 的 
构造 称 为 身份 。 身 份 可 能 与 个 人 、 项 目 、 过 程 、 设 备 或 数据 对 象 相 关联 。 


生命 周期 管理 
(标识 符 、 和 凭据 、 权 限 、 
角色 、 组 和 其 他 属性 





符 ) 和 和 凭据 结合 起 来 的 结构 。 为 给 定 实体 创建 
身份 需要 凭据 证 明 、 角 色 设 置 和 提供 资源 库 中 的 相关 数据 〈 包 括 权 限 ) 。 自 然 地 ， 必 须 有 足够 合适 的 安 
全 和 隐私 控制 来 保护 所 有 生成 的 身份 相关 信息 。 为 此 ， 有 必要 为 系统 之 间 如 何 使 用 、 存 储 和 传播 这 些 
信息 制定 明确 的 策略 。 这 种 策略 既 可 以 与 提供 商 有 关 ， 又 可 以 由 政府 规章 (如 美国 的 “ 萨 班 斯 - 奥 克 
斯 利 (Sarbanes - Oxley) 238") 明确 。 为 支持 审计 和 报告 的 策略 合 规 性 ， 必 须 记 录 关 键 的 TAM 活动 
(以 在 线 和 离线 的 形式 ) 。 该 系统 使 用 人 员 的 审计 线索 以 及 做 出 何 种 授权 决定 对 于 事件 管理 和 取证 也 是 
至 关 重 要 的 。 

在 本 节 中 ， 将 首先 讨论 云 计算 与 身份 和 访问 管理 有 关 的 含义 。 然 后 ， 将 通过 描述 其 构建 块 来 讨论 
最 相关 、 最 先进 的 IAM 技术 。 这 里 只 提供 框架 ， 并 将 在 附录 A 中 详 述 细 节 。 最 后 ， 作 为 个 案 ， 将 研究 
Keystone ， 一 种 用 于 实现 喘 份 和 访问 管理 的 OpenStack 组 件 。 


7.4.1 云 计 算 的 全 khk 
为 了 帮助 理解 云 计 算 的 含义 ， 考 虑 一 种 通过 基于 Web 的 门户 网 站 来 创建 虚拟 机 的 流程 。 假 定 爱丽 
丝 是 门户 网 站 的 用 户 ” 。 创 建 流程 如 下 : 


O ”实体 可 能 有 多 个 名 称 (考虑 到 别名 ) 。 在 这 种 情况 下 ， 可 以 链接 多 个 标识 符 。 
O 这 不 仅 解决 了 选择 性 别名 词 的 问题 ， 而 且 在 安全 文本 中 也 是 众所周知 的 惯例 ， 将 参与 方 称 为 鲍 勃 和 爱丽 丝 。 鲍 勃 将 在 下 
一 章 出 现 。 


将 身份 定义 为 二 种 用 于 认证 实体 的 实体 名 称 〈 标 识 
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首先 ， 爱 丽 丝 试图 访问 该 门户 网 站 ， 而 该 门户 网 站 启动 了 认证 和 授权 步骤 。 爱 丽 丝 向 门户 网 站 提 
供 其 凭据 。 

此 时 ， 门户 网 站 会 认证 爱丽 丝 身 份 并 确定 其 权限 。 但 是 ， 作 为 用 户 接 口 ， 它 依赖 于 男 一 种 云 组 件 
( 即 身份 控制 器 ) 来 实现 。 门 户 网 站 通过 身份 API 来 调用 身份 控制 硕 。 

认证 和 授权 成 功 后 ， 门 户 网 站 将 为 爱丽 丝 提供 她 应 当 拥 有 的 服务 和 资源 。 接 下 来 ,依托 门户 网 站 ， 
爱丽 丝 要 求 为 虚拟 机 配置 某 些 属性 。 这 将 触发 爱丽 丝 在 各 种 组 件 上 的 一 连 串 动作 : 

1) 门户 网 站 通过 计算 API 构建 请 求 ， 并 将 其 发 送 给 计算 控制 器 。 该 请 求 中 包括 爱丽 丝 的 凭据 。 

2) 计算 控制 器 对 凭据 进行 验证 。 如 果 一 切 顺 利 ， 则 它 将 分 配 1 个 计算 节点 ， 并 命令 该 计算 代理 
配置 虚拟 机 。 

3) 在 接 到 命令 后 ， 计 算 代 理 通 过 图 像 API 回 图 像 存储 器 请 求 图 像 。 该 请 求 包括 爱丽 丝 的 授权 。 如 
果 授 权 合 法 ， 则 下 载 图 像 。 然 后 ， 虚 拟 机 管理 程序 创建 一 台新 虚拟 机 。 

4) 虚拟 机 创建 成 功 后 ， 计 算 代 理 (通过 组 网 API 请 求 网 络 控制 器 提供 指定 连接 。 该 请 求 包括 以 
一 种 网 络 控制 器 能 检查 的 形式 呈现 的 对 爱丽 丝 授 权 的 确认 信息 。 

5) 成 功 完 成 授权 验证 后 ， 网 络 控制 器 分 配 网 络 资源 ， 并 将 相关 信息 返回 到 计算 代理 。 

6) 计算 代理 请 求 卷 控制 器 创建 所 需 的 卷 ， 并 通过 块 存储 API 将 其 连接 到 虚拟 机 。 

7) 卷 控制 器 分 配 卷 并 将 相关 信息 返回 到 计算 代理 。( 当然 ， 这 一 步 也 需要 授权 检查 ) 

现在 ， 可 以 将 虚拟 机 已 经 配置 完毕 以 及 用 于 访问 它 的 相关 信息 (如 IP 地 址 和 根 密码 ) 通知 给 爱 
丽 丝 。 

从 上 述 流程 ?可 以 得 出 如 下 5 点 结论 : 

1) 只 有 那些 通过 身份 验证 的 用 户 可 以 访问 门户 网 站 。 因 此 ， 爱 丽 丝 首次 尝试 访问 时 ， 她 必须 登 
录 ， 提 供用 户 接 口 所 规定 的 凭据 。 所 需 的 具体 凭据 取决 于 云 服务 文 持 的 认证 方法 。 

2) 爱丽 丝 登 录 后 ， 认 证 和 授权 步骤 重复 多 次 。 有 具体 来 说 ， 当 涉及 API 请 求 时 ， 爱 丽 丝 的 特权 验证 
是 有 序 的 。 需 要 重复 认证 和 授权 是 可 以 理解 的 。 通 常情 况 下 ， 认 证 和 授权 的 影响 仅 限 于 OAPI 事务 和 分 
布 式 系统 中 的 相关 组 件 。 需 求 要 进一步 考虑 不 共享 状态 的 目标 ， 以 支持 “大 规模 可 扩展 性 ”。 

3) 爱丽 丝 不 必 在 每 次 需要 凭证 时 都 提供 其 赁 证。 这 是 一 个 重要 的 设计 问题 ， 可 以 通过 实施 单 点 登 
录 来 解决 。 因 此 ， 在 爱丽 丝 登 录 之 后 ， 需 要 其 凭据 的 其 他 交互 可 以 在 爱丽 丝 不 干预 的 情况 下 进行 处 理 。 

4) 需要 一 种 授权 机 制 来 支持 云 服 务 组 件 代 表 爱 丽 丝 采 取 行 动 。 显然 ， 将 爱丽 丝 的 原始 凭据 复制 到 
分 布 式 组 件 中 是 不 可 接受 的 (想象 一 下 ,将 你 的 密码 提供 给 您 委托 任何 任务 的 每 个 人 )。 一 种 可 行 的 机 
制 应 当 使 用 临时 结构 来 代 蔡 爱丽 丝 的 原始 凭据 。 考 庸 讳言 ， 这 一 结构 至 少 与 爱丽 丝 的 原始 凭据 一 样 具 
有 和 良好 的 安全 性 ， 这 一 点 是 至 关 重 要 的 。 不 过 ， 奇 怪 的 是 ， 这 一 要 求 现在 看 来 可 能 有 些 奇怪 ， 稍 后 将 
证 明 ( 见 附录 A) 这 一 要 求 可 以 得 到 满足 。 

5) 除了 爱丽 丝 ， 还 存在 其 他 特权 用 户 ， 如 云 管理 员 或 进程 所 有 者 。 他 们 也 需要 进行 认证 和 授权 。 

一 旦 自动 化 成 为 云 计 算 的 标志 ， 事 情 就 会 变 得 复杂 。 例如， 考虑 自动 扩展 ， 就 会 得 出 这 一 结论 。 
正如 所 看 到 的 ， 业 务 流程 管理 器 负责 创建 新 虚拟 机 以 响应 某 次 告警 。 当 现 有 虚拟 机 的 负载 达到 预 设 国 
值 时 ， 通 常 就 会 触发 此 类 告警 。 创 建 虚 拟 机 的 流程 与 直接 涉及 爱丽 丝 的 流程 几乎 相同 。 这 里 的 主要 区 
别 在 于 ， 是 业务 流程 管理 器 而 不 是 门户 网 站 通过 计算 API 来 构建 和 发 送 请 求 到 计算 控制 咽 。 业 务 流 程 
管理 器 代表 爱丽 丝 采 取 行 动 。 它 从 事先 提供 的 模板 处 获取 虚拟 机 的 规格 。 如 前 所 述 ， 为 了 做 必要 的 事 
情 ， 业 务 流 程 管理 器 需要 在 计算 控制 器 的 请 求 中 包含 爱丽 丝 的 授权 ， 且 业务 流程 管理 器 应 该 使 用 一 种 
用 于 代替 爱丽 丝 原始 凭据 的 结构 ， 该 结构 应 当 在 短 时 间 内 有 效 。 

但 这 里 存在 一 个 问题 。 规 模 扩 展 告警 的 时 机 是 不 可 预知 的 。 很 可 能 当 告 警 出 现时 ， 现 有 临时 结构 
已 经 过 期 。 因 此 ， 业 务 流 程 管理 器 需要 动态 ( 按 需 ) 获取 新 的 临时 结构 。 

此 外 ， 自 动 扩 展 不 仅 仪 是 配置 和 启动 新 虚拟 机 。 启 动 虚拟 机 的 原因 是 运行 应 用 。 一 旦 虚拟 机 局 动 
并 运行 ， 业 务 流程 管理 器 还 需要 远程 安装 应 用 、 提 供与 应 用 相关 的 数据 (如 应 用 用 户 和 管理 员 的 赁 
据 ) 、 配 置 系统 和 应 用 程序 ， 并 最 终 启动 应 用 。 为 了 执行 这 些 任 务 ， 业 务 流 程 管理 器 需要 访问 云 中 预先 


O ”认证 和 授权 可 以 由 计算 控制 器 之 外 的 组 件 〈 如 身份 控制 器 ) 来 完成 。 
O 就 身份 和 访问 管理 而 言 ， 它 基本 上 拥有 与 其 他 操作 相同 的 流程 ， 如 局 动 、 暂 停 、 停 止 和 取消 配置 。 
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设置 的 与 应 用 有 关 的 数据 〈 即 元 数据 ) 。 然 后 ， 需 要 在 虚拟 机 上 运行 脚本 ， 这 可 能 需要 特殊 权限 。 幸 运 
的 是 ,假设 爱丽 丝 获 得 了 适当 权限 ， 则 业务 流程 管理 句 可 以 完成 所 有 操作 。 

但 这 又 会 出 现 男 一 个 问题 。 首 先 ， 业 务 流程 管理 器 必须 拥有 对 爱丽 丝 虚拟 机 的 特权 。 因 此 ， 爱 丽 
丝 必须 能 够 以 足够 的 粒度 委派 角色 来 降低 潜在 安全 风险 。 此 外 ， 由 于 业务 流程 管理 絮 假 设 特殊 用 户 对 
虚拟 机 拥有 任何 权力 ， 因 而 分 配给 特殊 用 户 的 权限 应 当 是 执行 手头 任务 所 需 的 最 低 权 限 。 

总 之 ， 云 管理 员 可 能 会 滥用 权限 。 因 此 ， 在 云 环 境 中 ， 必 须 制定 可 以 限制 潜在 损害 的 控制 措施 。 


7.4.2 认证 vor | 


当 某 人 需要 加 计算 机 系统 进行 身份 认证 时 ， 可 能 会 被 泄露 或 被 猜 到 
存在 3 种 常见 的 凭据 类 型 ， 如 图 7. 20 所 示 。 爱丽 [爱丽 丝 所 知道 的 信息 
丝 可 以 基于 她 所 知道 的 信息 (如 密码 ) 、 她 所 拥 . 密码 
有 的 东西 (如 硬件 安全 令 牌 ) 或 她 自身 的 特征 SANEREN 
(如 她 的 指纹 ) 进行 认证 。 显 然 ， 基 于 爱丽 丝 所 
知道 的 信息 进行 认证 是 最 简单 的 方法 ， 因 为 它 不 
需要 额外 的 小 工具 。 这 就 解释 了 为 什么 密码 应 用 
最 为 广泛 。 

认证 方法 的 选择 取决 于 可 以 容忍 的 风险 。 显 一 一 一 一 
而 易 见 ， 用 户 权限 越 高 ， 认 证 方法 应 当 越 健壮 。 eee ee 
想象 一 下 ， 攻 击 方 伪 装 成 云 管理 员 可 能 造成 的 破 图 7. 20 用 于 用 户 认证 的 凭据 
坏 有 多 大 ! 

基于 多 种 类 型 凭据 ( 称 为 多 因素 认证 ) 的 认证 可 以 显著 提高 保证 水 平 。 鉴 于 所 涉及 的 各 种 特权 用 
户 ， 云 基础 设施 服务 至 少 支持 双 因 素 身份 验证 是 非常 有 意义 的 。 

双 因素 认证 最 常见 的 形式 是 将 密码 ( 即 爱丽 丝 所 知道 的 信息 ) 和 从 设备 得 到 的 动态 生成 的 代码 
( 即 爱丽 丝 所 拥有 的 东西 ) 结合 起 来 。 

当 网 络 存在 时 ， 有 必要 使 用 加 密 系统 。 任 何 这 种 系统 要 么 使 用 共享 密 钥 (对 称 加 密 ) ， 要 么 依赖 于 
公 钥 密码 体制 。 

公 钥 密码 体制 需要 一 对 密 钥 : 一 种 被 称 为 公 钥 ， 可 以 将 其 共享 ; 另 一 种 被 称 为 私 钥 ， 必 须 进行 秘 
密 保存 。 假 定 公 钥 正确 生成 ， 则 从 公 钥 导出 对 应 私 钥 在 计算 上 是 不 可 行 的 。 一 种 得 到 广泛 使 用 的 知名 
公 钥 密码 系统 是 RNA， 它 是 由 李维斯 特 〈Rivest) 、 沙 米尔 〈Shamir) 和 阿 德 曼 (Adleman) 于 1977 年 
在 麻 省 理工 学 院 开发 的 (因而 算法 由 3 个 人 名 缩写 命名 ) 2 。 从 公 钥 导出 私 钥 在 计算 上 不 可 行 的 属性 
是 基于 大 数 分 解 的 难 解 程度 。RSA 的 重要 特征 之 一 是 公 钥 和 私 钥 计算 是 可 交换 的 : 使 用 私 钥 加 密 的 量 
可 以 用 公 钥 进行 解密 。 这 一 特征 支持 我 们 不 仅 可 以 使 用 该 方案 进行 加 密 ， 而 且 还 可 以 使 用 该 方案 进行 
签名 和 认证 。 

图 7. 21 描述 了 公 钥 密码 体制 在 认证 中 的 
应 用 。 如 图 7.21 所 示 ， 爱 丽 丝 宣布 自己 的 身 
份 。 在 收 到 爱丽 丝 的 消息 后 ， 认 证 系统 向 她 
发 送 挑战 R， 它 通常 是 随机 数 和 时 间 戳 的 组 
合 。 爱 丽 丝 使 用 PrK，(R) 来 响应 ， 这 是 她 


使 用 私 钥 PrK, 对 挑战 进行 加 密 的 结果 。 然 后 ， | 
系统 使 用 爱丽 丝 的 公 钥 来 对 PrK, (R) 进行 一 
解密 。 如 果 解 密 的 量 与 原始 挑战 相同 ， 则 认 
证 成 功 。 不 用 说 ， 需 要 假设 爱丽 丝 的 公 钥 可 
应 用 于 计算 机 系统 。 如 何 实现 是 另外 一 件 事 ， 
稍 后 将 进行 讨论 。 o BTA 基于 公 钥 的 认证 (简化 视图 ) : 
这 里 的 一 个 重要 细节 是 用 于 认证 的 密 钥 对 必须 仅 限于 特定 目标 ， 且 不 能 用 于 数字 签名 。 数 字 签 名 
包含 的 操作 与 认证 相同 ， 即 使 用 爱丽 丝 的 私 钥 对 文档 或 其 摘要 进行 加 密 ， 然 后 使 用 爱丽 丝 的 公 钥 对 其 
进行 解密 和 让 其 他 任何 人 进行 验证 。 如 果 使 用 同一 密 钥 进行 认证 和 数字 签名 ， 则 可 能 会 欺骗 爱丽 丝 进 
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行 数 字 签名 ， 如 将 借据 作为 挑战 骗 爱丽 丝 签名 ， 如 图 7. 21 所 示 。 

不 仅 用 于 完成 认证 和 数字 签名 任务 的 密 钥 对 是 不 同 的 ， 而 且 密 钥 生 成 和 管理 过 程 也 需要 有 所 不 同 。 
虽然 可 以 将 用 于 认证 和 解密 的 私 钥 进 行 托 管 ( 即 存放 在 可 信 的 第 三 方 处 ) ,但 是 某 些 管辖 权限 禁止 将 用 
于 数字 签名 的 私 钥 进行 密 钥 托管 2 。 在 云 计 算 中 ， 密 钥 可 以 高 效 地 被 托管 ， 因 为 拥有 特权 的 云 管理 员 可 
以 访问 所 存储 的 私 钥 。 在 法 规 遵循 方面 ， 密 钥 托管 是 有 问题 的 。 为 了 满足 这 些 要 求 ， 通 常 使 用 硬件 安 
全 模块 一 一 一 种 拥有 管理 接口 的 存储 设备 ， 该 接口 独立 于 虚拟 机 管理 程序 。 

采用 公 钥 密码 体制 ， 需 要 一 方 存储 私 钥 ， 另 一 方 要 安全 分 发 公 钥 〈( 即 证 明 爱 丽 丝 及 其 公 钥 的 关联 
性 ) 。 前 一 个 问题 稍微 简单 一 些 ， 因 为 它 可 以 通过 使 用 诸如 智能 卡 等 专门 设备 来 解决 。 然 而 ， 目 从 威 特 
菲尔德 . IE (Whitfield Diffie) 和 马丁 . 爱德华 . 赫 尔 曼 (Martin E，Hellman)“ 首次 公开 发 布 公 钥 密 
码 体制 以 来 ， 后 一 个 问题 始终 是 一 大 挑战 。 最 终 ， 行 业 公 钥 基础 设施 «(Public Key Infrastructure, PKI) 
解决 方案 需要 一 种 管理 基础 设施 以 支持 : 

1) 发 布 将 公 钥 与 身份 标识 及 一 组 属性 绑 定 起 来 的 PKI 证 书 。 

2) 维护 证 书 的 数据 库 。 

3) 指定 用 于 验证 证 书 的 机 制 。 

4) 指定 撤销 证 书 的 机 制 〈 包 括 存储 证 书 ) 。 

在 这 种 解决 方案 中 ， 证 书 充当 的 是 凭据 的 角色 。 劳 伦 . 科恩 菲尔德 (Loren Kohnfelder) 于 1978 年 
在 麻 省 理工 学 院 的 学 士 论文 所 中 介绍 了 该 解决 方案 的 一 些 核心 要 素 ， 包 括 证 书 的 结构 、 使 用 可 信和 机构 
[或 认证 中 心 (Certification Authority, CA) ] 的 数字 签名 来 封装 绑 定 的 思路 ， 以 及 证 书 撤销 的 概念 。 当 
然 ， 证 书 应 当 规定 一 定 的 有 效 期 。 然 而 ， 这 并 不 太 好 。 虽 然 证 书 仍 然 有 效 ， 但 是 使 绑 定 失效 可 能 会 出 
乱 子 。 例 如 ， 攻 击 者 可 能 得 到 私 钥 。 证 书 撤销 文 持 认 证 中 心 作 废 证 书 。 

使 用 CA 的 签名 将 公 钥 与 身份 绑 定 起 来 会 导致 如 何 验 证 数字 签名 的 问题 。 如 果 签 名 算法 是 基于 公 钥 
密码 体制 的 ， 则 该 问题 与 公 钥 分 发 相同 。 因 此 ， 它 可 以 通过 相同 的 方法 来 解决 : 级 别 较 高 的 认证 中 心 
向 级 别 低 的 认证 中 心 颁 发 数字 证 书 。 该 步骤 可 以 根据 需要 重复 多 次 ， 从 而 产生 一 连 串 证 书 〈 或 一 个 信 
任 链 ) 。 图 7. 22 从 概念 上 给 出 了 一 个 信任 链 。 链 的 顶部 必定 是 拥有 根 证 书 的 信任 锚 点 ， 该 证 书 进行 过 
自 签名 。 假 定 任 何人 都 可 以 生成 密 钥 对 和 自 签名 证 书 ， 这 些 信 任 锚 点 必须 是 众所周知 的 ， 且 数量 很 少 。 
ISO Ail ITU -T 已 经 对 层次 认证 模型 进行 了 标准 化 ， 并 发 布 了 ITU -T X. 509 建议 书 ”。 除 其 他 内 容 外 ， 
X. 509 证 书 可 以 获取 持 有 人 的 姓名 和 公 钥 、 签 发 认证 中 心 的 姓名 和 签名 、 签 名 算法 、 有 效 期 和 签发 认 
证 中 心 的 数字 证 书 。 尽 管 证 书 格式 还 有 其 他 标准 ， 可 是 X. 509 应 用 最 为 广泛 。 它 的 成 功 是 由 于 其 内 置 
的 可 扩展 性 。 其 他 标准 化 组 织 (特别 是 IETF) 已 经 对 扩展 进行 了 详细 规定 。 





a =e > 根 中 心 
er 批准 RA1, 密 钥 为 76FABFF8A … 
j 批准 RA2, 密 钥 为 17AF654… 
批准 RA3, 密 钥 为 2FABCFF… 


1 
` 
“a 
“== CALI CA1.2 CA2.1 
超级 证 书 
R 


上 面 消息 的 SHA-1 搞 要 ， 使 用 超级 证 书 的 私 钥 进行 数字 签名 


RA: 区 域 性 中 心 
CA: 认 证 中 心 
----> :信任 链 





O 例如 ， 新 泽 西 州 曾经 禁止 托管 用 于 数字 签名 的 私 钥 ; 最 近 的 新 泽 西 州 通知 标题 : 181 加 蜜 和 数字 签名 政策 更 加 变本加厉 ， 
明确 规定 “用 于 数字 签名 、 数 字 证 书 和 用 户 认证 的 密 钥 不 得 包含 在 与 第 三 方 的 密 钥 托管 约定 中 ”。 
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我 们 想 强 调 的 是 ，Web 安全 性 取决 于 这 一 标准 : 传输 层 安 全 (TLS) 协议 使 用 X. 509 证 书 进行 服 
务 器 认证 ”。 自 然 地 ，X. 509 依赖 关系 转移 到 云 计算 。 事 实 上 ， 依赖 性 变 得 更 强 ， 因 为 证 书 不 仅 用 于 服 
务 器 认证 ， 而 且 还 用 于 客户 端 认 证 ” 。 

在 没有 PKI 的 情况 下 ， 也 可 以 使 用 公 钥 密码 体制 。 安 全 外 壳 (SSH) 协议 就 是 一 个 例子 ， 它 在 云 计 
算 中 是 不 可 或 缺 的 。 首 先 ，SSH 是 自动 访问 虚拟 机 的 主要 安全 手段 。 根 据 RFC 4252 和 RFC 4253 的 规 
E, SSH 支持 使 用 证 书 进行 客户 端 和 服务 器 认证 。 

安全 外 壳 (SSH) 标准 存在 的 一 个 问题 是 它 引 入 了 多 种 选项 。 虽 然 它 支持 使 用 证 书 ， 但 并 不 是 强 
制 性 的 ， 且 导致 相当 不 确定 的 部 署 场景 。 特 别 是 服务 器 在 收 到 连接 请 求 时 ， 可 能 仅 发 送 公 钥 和 密 钥 的 
AIE (也 称 为 指纹 ) 。 客 户 端 在 首次 接收 时 ， 可 能 会 盲目 接受 公 钥 。 这 种 首次 使 用 信任 (Trust On 
First Use, TOFU) 的 方法 易于 受到 严重 的 攻击 ， 但 实践 中 仍 在 使 用 这 种 方法 。 

我 们 的 观点 是 ， 在 云 计算 中 ， 这 种 做 法 必须 改变 。 一 种 合乎 逻辑 的 解决 方案 是 在 客户 端 和 服务 器 
认证 中 强制 使 用 证 书 。 遗 憾 的 是 ， 迄 今 为 止 这 还 是 不 现实 的 。 

开源 软件 支持 云 计算 , 但 是 开源 SSH 软件 (包括 与 所 有 Linux 发 行 版 捆绑 的 OpenSSH) 中 实现 的 
证 书 格式 是 专 有 的 。 

最 佳 做 法 是 在 安全 数据 存储 | 如 RFC 4255 中 定义 的 DNS (Domain Name System， 域 名 系统 ) ] PR 
留 散 列 值 的 副本 ， 这 样 客户 端 在 与 服务 器 的 首次 接触 中 可 以 对 其 进行 查询 。 客 户 端 验 证 从 服务 器 接收 
的 指纹 ， 并 将 其 与 安全 存储 中 的 指纹 进行 比 对 。 如 果 指 纹 匹 配 ， 则 继续 进行 连接 。 


7, 4. 3 访问 控制 <n | 


跟踪 授权 对 象 访 问 何 种 内 容 的 方法 之 一 是 维护 一 张 表 〈 称 其 为 访问 控制 矩阵 ) ， 其 中 行 对 应 于 主 
体 ， 列 对 应 于 数据 对 象 。 和 矩阵 反映 了 系统 的 保护 状态 。 主 体 是 主动 实体 〈 如 用 户 或 进程 ) ， 而 对 象 是 被 
动 对 象 ( 如 文件 ) 。 和 矩阵 中 的 每 项 (用 4, 来 表示 ) 规定 了 主体 (用 3, 来 表示 ) 对 给 定 对 象 (用 0, 来 表 
W) 的 权限 (如 读 取 或 写 人 访问 )。 表 7.1 给 出 了 这 种 矩阵 ， 其 中 主体 2 权限 最 低 ， 只 有 访问 对 象 1 和 
对 象 2 的 权限 。 相 比 之 下 ， 主体 1 权限 较 高 ， 它 拥有 对 所 有 对 象 的 访问 权限 。 事 实 上 ， 主体 1 可 能 是 系 
统管 理 员 。 由 于 最 低 权 限 原则 ， 因 而 他 只 能 读 取 对 象 3 (如 工资 单数 据 ) 和 对 象 4 (如 审计 线索 )。 主 
体 3 可 以 对 这 些 对 象 进 行 读 号 (该 对 象 可 能 是 一 个 进程 )。 和 矩阵 为 设计 访问 控制 系统 和 确定 系统 是 否 安 
全 提供 了 一 种 功能 强大 的 模型 ”。 






表 7.1 访问 控制 矩阵 
ws SEE si), 









wt 
H 

| 
和 i 


Sb iv BAT oes ” .对象 
o F 


7 - re ; : a i L 
i. SA BT | BAR. 5A, Aii 读 取 
i 


-对象 3 Seale T 
无 


访问 控制 矩阵 自然 是 稀疏 的 ， 因 而 需要 考虑 特殊 的 实现 方案 。 简 而 言 之 ， 只 需 存 储 非 空 矩阵 元 素 ， 
但 需要 记录 其 位 置 。 两 种 常见 方法 分 别 通 过 列 和 行 来 存储 相关 单元 。 列 方法 可 以 得 到 访问 控制 列表 
(Access Control List, ACL), 行 方法 可 以 生成 能 力 列表 。 本 书 将 在 附录 A 中 对 这 些 内 容 进 行 更 为 详细 的 
讨论 。 

访问 控制 既 可 以 是 自由 的 ， 又 可 以 是 强制 性 的 ， 这 取决 于 谁 拥 有 设置 访问 对 象 权限 的 能 力 。 使 用 
自主 访问 控制 (Discretionary Access Control，DAC ) ， 对 象 所 有 者 可 以 随意 更 改 对 该 对 象 的 访问 权限 。 目 
主 访问 控制 可 以 在 大 多 数 使 用 访问 控制 列表 的 操作 系统 中 实现 。 在 该 方案 中 ， 对 象 所 有 者 可 以 特别 容 
易 地 部 分 或 全 部 撤销 赋予 任何 主体 访问 对 象 的 权限 。 对 象 所 有 者 只 需 从 对 象 的 访问 控制 列表 中 删除 所 
关注 的 主体 权限 即 可 。 然 而 ,访问 控制 列表 具有 局 限 性 。 需 要 注意 的 是 ， 自 主 访问 控制 不 适合 处 理 用 
户 需 要 在 一 段 时 间 内 将 某 些 权限 委托 给 另 一 个 用 户 的 情况 。 毋 庸 讳言 ， 动 态 授权 (这 在 云 计算 环境 中 

加 ”其 工作 机 理 与 其 前 身 一 一 安全 套 接 层 (Secure Socket Layer, SSL) 协议 相同 。 

O ”读者 可 能 会 问 ， 为 什么 基于 数字 证 书 的 认证 还 没有 替代 人 类 用 户 传统 的 认证 方法 。 一 个 主要 原因 是 让 人 们 安全 保护 其 私 

钥 非 常 困 难 。 然 而 ， 私 钥 不 受 损害 是 PKI 安全 的 基础 。 另 一 个 主要 原因 是 数字 证 书 需 要 花 钱 。 
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是 至 关 重 要 的 ) 必须 依靠 一 种 独立 机 制 来 实现 。 

正常 系统 中 的 大 量 访问 控制 列表 也 使 得 确定 每 个 用 户 的 权限 变 得 非常 困难 。 当 需要 快速 更 新 用 户 
权限 以 反映 人 员 或 事件 的 突然 变化 时 ， 这 就 容易 出 现 问题 。 使 用 组 结构 是 一 种 巧妙 的 解决 方案 。 访 问 
控制 列表 既 可 以 包含 用 户 ， 又 可 以 包含 用 户 所 属 的 组 。 如 果 撤 销 用 户 的 权限 ,但 不 撤销 组 的 权限 ， 则 
用 户 仍 可 以 访问 该 对 象 。 显 然 ， 该 方案 还 有 改进 的 余地 。 

在 非 自主 访问 控制 中 ， 即 使 对 象 是 由 主体 创建 的 ， 主 体 可 能 也 无 法 更 改 对 该 对 象 的 访问 权限 。 拥 
有 此 类 权限 的 机 构 存 在 于 系统 层面 。 强制 访 问 控制 (Mandatory Access Control, MAC) 是 限制 军事 和 政 
府 机 构 中 不 同 级 别人 员 之 间 信 息 流 的 一 个 实例 。 通 常 ， 强 制 访问 控制 要 求 根据 某 一 琐 略 ， 系 统 中 认证 
中 心 需要 为 每 个 主体 (以 及 计算 机 系统 中 的 每 个 对 象 ) 分 配 层次 结构 中 的 某 个 安全 级 别 。 访 问 资格 是 
基于 主体 与 对 象 所 分 配 安全 级 别 之 间 的 优势 关系 来 确定 的 。 当 且 仅 当 对 象 在 层次 结构 中 级 别 相 同 或 较 
低 时 ， 主 体 才 可 以 访问 对 象 。 例 如 ,美国 军 方 将 信息 划分 为 绝密 、 秘 密 、 机 密 或 未 分 类 。 为 了 访问 
“秘密 ”类 型 的 信息 ， 工 作 人 员 必 须 具 有 对 等 或 更 高 的 安全 许可 级 别 。 这 种 方案 假定 使 用 可 信 计 算 基 
(Trusted Computing Base, TCB) 来 对 其 控制 下 的 所 有 主体 和 对 和 象 执行 策略 。 

20 世纪 80 年代， 美国 国防 部 (Department of Defense，DoD) 出 版 了 第 1 本 关于 可 信 计 算 机 系统 的 
评估 标准 ” 〈 因 出 版 物 的 封面 颜色 为 栖 色 ， 我 们 称 之 为 橙 皮 书 ) ， 明 确 将 强制 访问 控制 定义 为 “基于 
对 象 中 所 包含 的 信息 的 敏感 性 (以 标签 表示 ) 和 主体 访问 这 些 敏感 性 信息 的 正式 授权 ( 即 许可 证 ) 限 
制 对 象 方法 的 一 种 方法 ”。 定 义 基于 Bell - LaPadula 模型 ”， 它 影响 了 诸多 计算 机 安全 技术 的 发 展 。 由 
于 模型 中 使 用 了 多 个 安全 级 别 ， 因 而 将 形成 的 系统 称 为 多 级 安全 系统 。 

Bell - LaPadula 模型 主要 通过 “ 读 取 ”或 “ 写 人 ”策略 从 根本 上 解决 信息 流 控 制 问题 。 策 略 执行 保 
证 信息 不 会 向 下 流动 。 有 益 的 结果 是 能 够 防止 特洛伊 木马 恶意 软件 人 侵 。 考 虑 特权 用 户 爱 丽 丝 结束 运 
行 受 感染 程序 的 场景 。 不 使 用 强制 访问 控制 ， 相 关 进 程 可 以 访问 爱丽 丝 所 在 组 织 中 存储 人 员 薪 资信 息 
的 文件 〈 其 对 手 安 迪 无 法 访问 该 文件 ) ， 并 将 其 内 容 写 入 安 迪 可 以 访问 的 男 一 个 文件 (例如 ， 文 件 名 为 
“薪资 2”) 中 。 使 用 强制 访问 控制 ， 该 进程 不 能 以 低 于 爱丽 丝 的 安全 级 别 写 人 薪资 2 文件 中 ; WRB 
资 2 的 安全 级 别 很 高 ， 则 安 迪 无 法 读 取 该 文件 。 

在 Bell - LaPadula 模型 的 启发 下 ， 人 们 开发 出 了 Biba 模型 ” 。 该 模型 涉及 分 类 信息 的 完整 性 。 具 
体 来 说 ，Biba 模型 规定 了 “ 读 取 ”和 “ 写 人 ”策略 ， 这 实际 上 由 Bell - LaPadula 模型 禁止 。 基 本 原理 
是 ， 对 象 的 完整 性 只 能 与 那些 对 其 内 容 形 成 有 贡献 的 对 象 中 最 不 可 靠 对 象 的 完整 性 一 样 。Bell - LaPad- 
ula 模型 还 激发 了 许多 其 他 用 于 解决 其 局 限 性 的 开发 活动 。 与 云 计算 特别 相关 的 是 两 大 重要 开发 活动 : 
类 型 强制 访问 控制 和 基于 角色 的 访问 控制 (Role - Based Access Control，RBAC)。 下 面 对 其 进行 详细 
描述 。 

类 型 强制 访问 控制 ”是 厄 尔 : 波 波 特 和 理 查 德 . 凯 恩 开发 的 。 根 据 本 章 参 考 文献 [32] ， 这 一 想 
法 是 由 验证 多 级 安全 系统 满足 敏感 度 水 平 必须 准确 包含 在 打印 输出 中 的 要 求 这 一 问题 引发 的 。 显 而 易 
见 ， 解 决 方案 组 件 涉及 管道 的 使 用 。 类 型 强制 访问 控制 方法 从 根本 上 解决 了 Biba 模型 中 无 法 实现 管道 
的 问题 。 考 虑 一 种 通过 网 络 秘密 发 送 数 据 的 应 用 。 在 这 种 情况 下 ， 管 道 将 包含 一 个 准备 原始 数据 的 进 
fE (P)、 一 个 用 于 加 密 数 据 的 中 间 进 程 (P,) 和 一 个 处 理 网 络 传输 的 进程 (已 )。 高 可 读 策 略 可 以 确 
保 数据 流 的 完整 性 ， 但 无 法 强制 实现 管道 结构 。 换 句 话 说 ,任何 P, 可 读 取 的 数据 ，P; 也 可 以 进行 读 取 。 
然而 ， 可 以 忽略 已 ， 且 可 以 将 明文 数据 传输 到 网 络 。 

采用 类 型 强制 访问 控制 ， 每 个 对 象 都 被 分 配 一 种 类 型 属性 ， 且 每 个 主体 都 被 分 配 一 种 域 属性 。 主 
体 是 否 可 以 访问 对 象 由 预先 配置 的 被 称 为 域 定 义 表 (Domain Definition Table, DDT) 的 集中 式 表格 进行 
控制 。 从 概念 上 讲 ， 该 表 包 插 用 于 表示 每 种 类 型 的 行 和 用 于 表示 每 个 域 的 列 。 行 和 列 交 点 处 的 项 指定 
了 该 域 中 的 主体 对 该 类 型 对 象 可 能 拥有 的 最 高 访问 权限 。 实 际 上 ,该 表 是 男 一 种 访问 矩阵 。 每 当主 体 
寻求 访问 对 象 时 ， 都 会 对 表格 进行 检查 。 如 果 所 尝试 的 访问 模式 不 在 表 中 ， 则 访问 将 被 拒绝 。 后 来 ， 
Æ: . JPF (L. Badger) 等 1 引 将 类 型 强制 扩展 为 域 型 强制 (Domain and Type Enforcement，DTE)。 它 根据 
文件 层次 结构 中 的 位 置 ， 为 访问 控制 配置 和 文件 的 隐 含 类 型 引信 了 高 级 语言 。 类 型 强制 和 域 型 强制 比 
传统 多 级 安全 方案 更 为 普遍 。 它 们 不 仅 可 以 实现 信息 流 的 机 密 性 和 完整 性 ， 而 且 还 可 以 确保 管道 和 安 
全 性 内 核 。 

强制 访问 控制 的 著名 实现 方案 是 基于 美国 国家 安全 局 (National Security Agency, NSA) Flask 框架 
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对 Linux 的 SELinux 内 核 扩 展 。 除 了 多 级 安全 和 类 型 强制 ，SELinux 还 支持 多 种 类 型 的 安全 性 。 所 请 的 
类 型 为 控制 增加 了 另 一 个 维度 。 类 型 是 根据 给 定 策略 拥有 相同 权限 的 一 组 主体 。 例 如 ， 类 型 分 配 和 策 
略 可 能 是 两 大 主体 : a 和 4， 它 们 属于 邢 类 。 两 个 主体 a 和 4 之 间 可 以 进行 彼此 通信 ， 且 能 与 X' 类 中 的 
主体 进行 通信 ,但 类 中 的 主体 无 法 与 了 类 中 的 主体 进行 通信 。 

就 实现 方案 而 言 ， 类 型 可 以 由 其 各 自 的 标识 符 或 标签 来 表示 。 通 过 将 主体 与 对 应 标签 相关 联 ， 中 
心机 构 将 为 一 个 主体 分 配 一 种 类 型 。 对 象 执行 的 是 相同 的 进程 。 在 所 有 其 他 合适 的 策略 中 ， 基 于 类 型 
的 策略 能 提供 一 套 额外 的 独立 控制 集 。 

SELinux 支持 sVirt 服务 ， 旨 在 实施 虚拟 机 隔离 。 使 用 sVirt 服务 ， 可 以 为 每 台 虚 拟 机 分 配 唯 一 的 标 
签 ” 。 此 外 ， 可 以 将 同一 标签 分 配给 与 虚拟 机 相关 的 资源 〈 如 文件 和 设备 ) 。 通 过 禁止 进程 访问 不 同 标 
签 的 资源 可 以 确保 虚拟 机 的 隅 离 。 如 果 虚 拟 机 管理 程序 正确 实现 ， 则 虚拟 机 可 能 无 法 访问 另 一 台 计 算 
机 的 资源 〈 如 磁盘 镜像 文件 ) 。 但 是 ， 现 实 中 不 存在 绝对 安全 和 无 漏洞 的 虚拟 机 管理 程序 。 鉴 于 这 种 情 
况 ，sVirt 增加 了 额外 的 保护 功能 。 

美国 国家 标准 与 技术 研究 院 (NIST) 牵头 开发 了 基于 角色 的 访问 控制 技术 。 本 章 参考 文献 [34] 
是 一 本 关于 RBAC 的 综合 性 专著 ,除了 其 他 有 用 信息 之 外 ， 还 提供 了 RBAC 详细 的 发 展 历史 ， 并 追溯 
到 1879 年 收银 机 的 发 明 。RBAC 根植 于 企业 ， 其 中 的 每 个 人 都 具有 明确 的 功能 (或 角色 ) ， 它 反 过 来 又 
定义 了 授权 个 人 可 访问 的 资源 。 根 据 本 章 参考 文献 [34] MA, NIST 于 1992 年 首先 在 商业 和 政府 机 构 
中 开始 研究 访问 控制 ， 并 得 出 技术 方面 存在 严重 差距 的 结论 。 特 别 是 他 们 发 现 ， 基 于 最 小 特权 原则 ， 
针对 基于 主体 的 安全 策略 和 访问 没有 实现 方案 支持 。 

为 了 解决 这 些 问题 ， 本 章 参 考 文献 [35] 最 早 提出 了 RBAC 模型 ， 随 后 根据 作者 名 字 将 该 模型 命 
名 为 Ferraiolo - Kuhn 模型 。 该 模型 使 用 集合 论 结构 形式 化 定义 了 角色 层次 结构 、 主 体 角 色 激 活 以 及 主 
体 对 象 调解 及 其 约束 条 件 。RBAC 模型 的 核心 是 3 条 规则 : OP APA; 四 角色 授权 ; OFFRA. P 
1 条 规则 假设 主体 只 有 在 分 配角 色 后 才能 执行 事务 ， 然 后 根据 第 2 条 规则 ， 必 须 为 该 主体 授权 。 此 外 ， 
根据 第 3 条 规则 ， 必 须 对 事务 本 身 进 行 授权 。 换 名 话说， 对 任何 资源 的 访问 只 能 通过 由 一 组 许可 定义 
的 角色 进行 。 与 访问 控制 列表 的 情况 正好 相反 ， 直 接 撤 销 主体 的 角色 会 导致 主体 无 法 对 资源 进行 访问 。 
该 模型 的 一 个 重要 特征 体现 在 角色 是 分 层 而 不 是 平面 的 〈 与 访问 控制 列表 组 的 情形 一 样 ) ， 且 角色 可 以 
继承 。 该 特征 简化 了 角色 之 间 权 限 的 聚合 。 例 如 ， 分 配给 初级 经 理 的 权限 可 以 进行 累积 ， 并 可 将 其 分 
配给 高 级 经 理 。 该 模型 的 另 一 个 重要 特征 是 可 以 使 用 限制 条 件 (以 根植 于 职责 分 离 的 策略 规则 形式 ， 
并 基于 最 小 特权 原则 ) 来 实现 高 级 安全 目标 (如 防止 利益 冲突 ) 。 例 如 ， 可 以 定义 策略 规则 来 阻止 同时 
为 用 户 分 配 或 激活 两 个 互相 矛盾 的 角色 (如 系统 管理 员 和 审计 员 ) 。 

按照 原始 建议 ，RBAC 研究 在 美国 和 国际 上 如 雨 后 春 血 般 迅 速 增加 ， 且 其 应 用 开始 出 现在 理财 、 工 
作 流 管理 和 医疗 保健 等 领域 。 到 2003 年 底 ， 业 务 已 经 对 ANSI RBAC 标准 达成 共识 。 该 标准 已 被 广 
泛 接受 为 国家 标准 制订 的 基础 。 例 如 ， 美 国 健康 保险 携带 和 责任 法 案 (Health Insurance Portability and 
Accountability Act, HIPAA) 具体 规定 了 RBAC 的 使 用 。 需 要 注意 的 是 ,在 RBAC 出 现 之 前 ， 人 们 将 访 
问 控制 模型 要 么 看 作 是 强制 性 的 ， 要么 看 作 是 自主 的 。RBAC 改变 了 这 种 观点 。 提 供 了 一 种 灵活 的 策略 
框架 ,但 未 提供 具体 策略 ， 它 既 支 持 自主 访问 控制 ， 又 支持 强制 访问 控制 ”。 


7.4.4 ”动态 授权 | 


动态 授权 是 一 项 相对 较 新 的 发 展 成 果 。 传 统 身份 和 访问 管理 系统 可 以 处 理事 先 设置 的 授权 (但 不 
能 随时 ) 。 现 在 考虑 以 下 源 于 网 络 的 著名 用 例 。 爱 丽 丝 将 其 照片 存储 在 TonVisage 网 站 上 ,该 网 站 是 由 
TonVisage 公司 运营 的 。 访 问 这 些 照片 是 受 密码 保护 的 。 只 有 爱丽 丝 知道 其 密码 ， 她 想 以 这 种 方式 来 保 
存 密 码 。 不 过 现在 ， 爱 丽 丝 想 打 印 其 照片 (这些 照 片 是 在 千 载 难 才 的 豆 马 拉 雅 山 旅 行 中 拍摄 的 ) ， 并 制 
作 一 本 实体 相册 。 为 了 达到 这 一 目标 ， 她 计划 使 用 PrintYerFace. com 提供 的 打印 服务 ， 该 网 站 承诺 以 相 


名 ”实际 上 ,标签 是 SELinux 中 主体 或 对 象 安 全 情境 的 一 部 分 。 除 了 人“ 标签” ( 令 人 困惑 的 是 ， 在 SELinux 中 被 称 为 “级 
别 ”) ， 安 全 情境 包含 3 个 以 上 的 字段 : 用 户 、 角 色 和 类 型 。 

O ”职责 分 离 是 执行 关键 任务 需要 多 个 角色 的 原则 ， 且 无 法 将 所 有 角色 分 配给 一 个 人 。RBAC 支持 静态 和 动态 职责 分 离 。 两 
者 之 间 的 关键 区 别 在 于 : 在 动态 职责 分 离 中 ， 约 束 条 件 是 在 运行 时 设置 的 。 
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对 较 低 价格 对 爱丽 丝 的 照片 进行 专业 编辑 ， 并 将 其 打印 在 相册 中 漂亮 的 厚 纸 上 。PrintYerFace 如 何 获 取 
爱丽 丝 的 照片 ? 爱丽 丝 当 然 不 想 向 任何 人 泄露 其 在 TonVisage 的 登录 名 和 密码 。 也 许 PrintYerFace 会 要 
求爱 丽 丝 邮寄 其 照片 。 但 这 对 爱丽 丝 来 说 是 非常 不 方便 的 。 对 于 TonVisage 来 说 ， 根 据 公 司 每 年 增加 
100 万 用 户 的 业务 计划 ， 提 供 照 片 所 需 的 存储 空间 也 将 是 一 种 负担 。 此 外 ， 还 面临 着 商业 竞争 : 例如 ， 
爱丽 丝 可 以 将 照片 贴 在 棍子 上 ， 然 后 走 进 当地 打印 店 。 常 识 要 求爱 丽 丝 尽 可 能 简单 地 做 事 : 她 应 当 临 
时 许可 PrintYerFace 在 TonVisage. com 上 读 取 喜马拉雅 山 的 照片 。 

为 了 支持 用 例 ，OAuth 社区 努力 于 2007 年 开发 了 初始 开放 解决 方案 。 这 是 一 个 实际 存在 的 解决 方 
案 。 实 际 上 ， 所 谓 的 Web 2. 0 公司 (如 谷歌 、 美 国 在 线 、 雅 虎 和 Flickr) 都 采用 了 太 多 太 多 的 专 有 解决 
方案 。 后 来 ，IETF 采纳 了 这 种 解决 方案 (RREH OAuth 1.0) ， 并 成 为 OAuth 2.0 的 基础 。0Auth 2.0 是 
在 特定 特许 工作 组 下 开发 的 正式 标准 。IETF 中 的 OAuth 标准 化 工作 引起 人 们 极 大 的 兴趣 。 网 络 设备 供 
应 商 和 主要 电信 提供 商 很 快 加 入 Web 2.0 公司 ， 这 些 公 司 积极 参与 了 社区 的 标准 化 工作 。 随 着 时 间 的 
推移 ， 出 现 了 比 打 印 照片 问题 更 为 严重 的 新 应 用 ， 特 别 是 云 计算 中 虚拟 机 生命 周期 的 目 动 化 管理 。 

IETF 的 第 一 个 OAuth 输出 是 与 OAuth 1.0 有 关 的 信息 类 RFC。 虽 然 不 是 官方 标准 ， 但 它 是 作为 实 
现 规范 而 被 使 用 的 。RFcC 与 原始 社区 规范 的 主要 区 别 在 于 通过 在 需要 时 强制 采用 TLS 协议 ， 它 已 经 解 
决 了 一 些 安全 问题 ， 明 确 了 时 间 惟 和 其 他 随机 数 的 使 用 方法 ， 并 对 加 密 签 名 进行 了 改进 。 

回 到 爱丽 丝 的 用 例 上 ， 图 7. 23 从 概念 上 描述 了 TonVisage 如 何 基于 OAuth 1.0 从 爱丽 丝 那里 获取 访 
问 其 照片 的 权限 。 从 爱丽 丝 到 PrintYerFace 的 初始 请 求 (打印 其 相册 ) 不 是 标准 交换 的 一 部 分 (因为 请 
求 本 身 不 需要 任何 新 的 标准 化 )， 这 就 是 为 其 分 配 一 个 零 序 列 号 的 原因 。 在 收 到 爱丽 丝 的 请 求 后 ， 
PrintYerFace 反 过 来 在 消息 1 请 求 中 访问 TonVisage 上 的 爱丽 丝 相 册 。 现 在 ，TonVisage 需要 获取 爱丽 丝 
的 许可 ， 才 能 将 该 相册 传 给 PrintYerFace， 这 可 以 通过 交换 消息 2 和 3 来 实现 。 


1. 让 我 访问 爱丽 丝 的 相册 


. 4. 授 予 访问 权 TonVisaee 
PrintYerFace 5. 得 到 爱丽 丝 的 相册 (签名 ) 
GB Os 


6. 爱 丽 丝 的 相册 









这 里 存在 两 个 主要 问题 ， 就 所 涉及 的 认证 主体 而 言 : 首先 ，TonVisage 需要 理解 消息 2 和 3 是 与 爱 
丽 丝 〈 而 不 是 假冒 她 的 人 ) 对 话 的 一 部 分 ; 其 次 ，TonVisage 必须 知道 它 实 际 上 是 从 PrintYerFace 那里 
接收 请 求 并 向 PrintYerFace 发 布 信息 。 第 1 个 问题 是 通过 使 用 爱丽 丝 与 TonVisage 的 密码 来 对 其 进行 认 
证 。 第 2 个 问题 可 通过 TonVisage 和 PrintYerFace 共享 一 组 长 斯 和 短期 的 秘密 密码 来 解决 。 长 期 共享 的 
秘密 支持 PrintYerFace 向 TonVisage 认证 ; 短期 共享 秘密 支持 PrintYerFace 证 明 它 拥有 合适 的 授权 。 短 期 
秘密 由 TonVisage 动态 生成 ， 并 将 其 包含 在 消息 4 中 返回 给 PrintYerFace。 使 用 长 期 和 短期 秘密 的 组 合 来 
对 爱丽 丝 的 相册 请 求 进 行 签名 。 正 如 消息 5 和 6 所 示 的 ，PrintYerFace 可 以 最 终 得 到 相册 。 

然而 ，OAuth 1.0 方案 存在 着 缺点 。 首 先 ，PrintYerFace ( 即 OAuth 1. 0 术语 中 的 客户 问 ) 需要 获取 
不 同类 型 的 长 期 和 短期 凭据 ， 并 使 用 其 组 合 来 生成 数字 签名 。 事 实证 明 ， 该 方案 太 复 末 ，Web 应 用 开 
发 人 员 不 容易 实现 。 此 外 ，OAuth 1.0 还 有 太 多 需要 实现 的 东西 ; 该 规范 仍然 警告 粗糙 实现 方案 可 能 会 
引起 的 一 系列 潜在 灾难 。 一 方面 ， 协 议 不 提供 请 求 的 机 密 性 ， 因 而 锚 听 者 可 以 看 到 这 些 请 求 。 为 外 ， 
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如 果 未 对 TonVisage ( 即 OAuth 1.0 术语 中 的 服务 器 ) 进行 正确 认证 ， 则 事务 可 能 会 被 操纵 。 同 时 ， 为 
了 计算 签名 ， 用 于 签名 的 共享 秘密 必须 以 明文 形式 提供 给 OAuth 代码 。 遗 憾 的 是 ， 通 过 在 服务 器 上 以 
明文 形式 存储 秘密 ， 这 一 要 求 太 容 易 实现 。 如 果 这 样 做 ， 则 罕 破 服务 器 的 攻击 者 可 以 通过 伪装 成 攻击 
中 获得 共享 秘密 的 客户 端 ， 来 执行 任何 操作 。 

如 果 这 还 不 够 ， 则 会 出 现 更 多 潜在 的 问题 ， 因 为 客户 端 主机 上 的 实际 OAuth 代码 通常 属于 第 三 方 。 
Sua Get tana eae 问题 可 以 得 到 缓解 ， 但 它 又 不 是 协议 规范 的 一 部 分 ， 

只 是 “智能 ”服务 顺应 该 做 的 事情 。 知 名 的 钓鱼 攻击 是 另 一 种 严重 问题 。 只 有 那些 知道 他 们 正在 访 
问 何 种 网 站 的 ， 聪明 ”用 户 才 能 克服 这 一 问题 。 其 他 安全 问题 与 秘密 的 长 度 及 其 生命 周期 有 关 。 同 时 ， 
由 于 没有 机 密 性 保证 ， 窃 听 者 可 以 收集 经 过 认证 的 请 求 和 签名 ， 然 后 发 起 离线 攻击 来 恢复 秘密 。 

这 些 并 非 所 有 已 知 的 安全 问题 ,但 现在 应 当 清 楚 为 什么 OAuth 1. 0 需要 认真 地 开展 后 续 行动 。 新 框 
架 和 协议 不 仅 要 解决 安全 问题 ， 而 且 还 要 支持 新 用 例 ， 如 虚拟 机 的 生命 周期 自动 化 管理 。 新 用 例 提 出 
了 新 要 求 ， 特 别 是 使 用 独立 专用 服务 器 来 灵活 处 理 认 证 和 授权 。 考 虑 到 这 些 需 求 ， 正 TF RFC 6749 中 规 
定 的 OAuth 2. 0 框架 包括 4 个 角色 。 除 了 OAuth 1.0 使 用 的 资源 所 有 者 (WW), RP ARS at 
之 外 ,还 引入 了 与 授权 相关 的 另 一 种 服务 器 。 新 服务 器 自然 被 称 为 授权 服务 器 ， 而 原始 服务 器 被 称 为 
资源 服务 器 。 实 际 上 ， 授 权 服 务 器 的 引入 受到 云 计算 的 推动 ， 因 为 云 计 算 可 能 涉及 依赖 同一 授权 服务 
器 的 多 台 资源 服务 器 。 授 权 服 务 器 通过 统一 资源 标识 符 (Uniform Resource Identifier, URI) 的 服务 端点 
来 提供 服务 。 

图 7. 24 从 概念 上 描述 了 同一 用 例 的 OAuth 2.0 工作 流 。 它 与 OAuth 1.0 工作 流 类 似 ， 特 别 是 如 果 
TonVisage 也 可 充当 授权 服务 器 时 。 主 要 区 别 在 于 PrintYerFace 如 何 证 明 它 拥有 受 丽 丝 的 授权 。PrintYer- 
Face 不 像 OAuth 1. 0 那样 提供 签名 ， 而 是 出 示 授 权 服 务 器 发 行 的 访问 令 牌 。 令 牌 表 示 一 组 临时 权限 。 同 
时 ， 它 可 能 并 不 限于 特定 客户 端 。 将 这 种 访问 令 牌 称 为 承载 令 牌 。 合 法 承载 令 牌 的 持 有 者 可 以 通过 提 
供 令 牌 来 访问 相关 资源 。 这 里 ， 将 承载 令 牌 比 作 是 音乐 会 门票 。 因 此 ， 承 载 令 牌 在 运动 和 休息 时 均 能 
得 到 适当 保护 ， 这 一 点 是 至 关 重 要 的 。 当 然 ， 让 令 牌 的 有 效 期 尽 可 能 短暂 ， 有 助 于 降低 因 信 息 汇 露 而 
导致 的 任何 损失 。 

1. 让 我 访问 爱丽 丝 的 相册 


4. 授 予 访问 权 
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显而易见 ， 在 收 剂 帝 源 请 求 后 ， 资 源 服务 舌 必 须 验证 所 包 售 的 访问 令 牌 并 确保 ， TFT 
未 过 期 ; @) 访 问 令 牌 的 范围 覆盖 所 请 求 的 资源 。 资 源 服 务 器 如 何 验证 访问 令 牌 超出 了 OAuth 2.0 的 范 
围 。 我 们 可 以 观察 到 ， 令 牌 验证 实际 上 存在 两 种 选择 : 

1) 资源 服务 器 。 在 这 种 情况 下 ， 令 牌 需要 采用 标准 格式 并 捕获 可 验证 的 信息 。 依 据 的 标准 是 来 目 
IETF 的 JSON Web 令 牌 (JSON Web Token, JWT) 规范 。JWT 表示 是 特别 紧凑 的 ， 它 允许 在 HTTP 授权 
头 或 URI 查询 参数 中 承载 如 此 表示 的 访问 令 牌 。 不 推荐 采纳 后 一 种 选项 ; UR 参数 很 可 能 被 记录 。 该 
表示 还 支持 对 关键 信息 进行 签名 和 加 密 。 
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2) 授权 服务 器 。 在 这 种 情况 下 ， 令 牌 格式 由 授权 服务 器 决定 ， 因 为 它 负责 访 问 令 牌 的 发 行 和 验 
证 。 授 权 服 务 器 可 以 通过 特定 端点 来 提供 令 牌 验证 服务 。 

这 两 种 选择 都 与 云 计 算 相 关 ， 稍 后 将 在 OpenStack Keystone 个 案 研究 中 回顾 。 

7.4.5 联合 身份 eee 4 

联合 身份 最 早 在 企业 和 网 络 行业 中 引入 ， 它 允许 用 户 访问 不 同 管理 域 中 的 应 用 ， 而 无 须 使 用 与 域 
有 关 的 凭据 或 重新 进行 显 式 认证 。 这 主要 通过 将 身份 管理 组 件 与 每 种 应 用 分 离开 来 ， 并 将 其 外 包 给 一 
般 身份 提供 商 (Identity Provider，IdP) 来 实现 。 由 此 形成 的 分 布 式 架 构 需 要 建立 应 用 提供 商 和 号 份 提 
供 商 之 间 的 信任 ， 以 及 用 户 与 身份 提供 商 之 间 的 信任 。 然 后 ， 应 用 可 以 依靠 身份 提供 商 来 验证 用 户 的 
凭据 ， 而 用 户 反 过 来 又 可 以 享受 更 少 凭据 和 单 点 登录 带 来 的 便利 。 在 联合 身份 的 术语 中 ， 用 户 被 称 为 
当事人 (或 请 求人 、 主 体 )， 应 用 被 称 为 依赖 方 。 

这 里 ， 基 本 要 求 是 多 个 服务 提供 商 使 用 一 组 通用 机 制 来 发 现 用 户 、 依 赖 方 和 身份 提供 商 的 身份 。 
确保 在 这 些 实体 之 间 甚 至 可 能 跨 多 个 领域 交换 的 敏感 信息 的 安全 (如 机 密 性 和 完整 性 得 到 保护 ) 也 是 
至 关 重 要 的 。 

存在 着 支持 联合 身份 的 若干 种 机 制 。 在 附录 A 中 ,将 回顾 3 种 特别 重要 的 机 制 : 安全 断言 标记 语 
言 (SAML) 、OpenID 和 OpenID Connect (这 实际 上 是 OAuth 2.0 的 一 种 应 用 ) 。 
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Keystone 是 OpenStack 服务 的 守门 员 ， 能 够 提供 集中 式 认 证 和 授权 。 它 既 可 以 控制 虚拟 机 用 户 ， 又 
可 以 控制 OpenStack 服务 。Keystone 提供 被 称 为 身份 服务 和 令 牌 服务 的 核心 服务 。 

身份 服务 用 于 处 理 用 户 的 基本 认证 和 相关 数据 的 管理 。 用 户 可 以 是 个 人 或 进程 。 基 于 密码 的 用 户 
认证 是 本 地 支持 的 ,但 可 以 通过 外 部 插件 来 使 用 其 他 认证 方法 。 除 了 用 户 之 外 ，Keystone 还 文 持 域 、 项 
目 、 组 和 角色 的 结构 。 前 3 种 结构 与 人 员 和 资源 的 组 织 有 关 ， 域 级 别 最 高 。 因 此 ， 封 装 一 组 OpenStack 
资源 的 项 目 必 须 恰好 属于 一 个 域 。 类 似 地 ， 由 用 户 构成 的 组 必须 恰好 属于 一 个 域 。 角 色 结 构 是 一 个 不 
同 的 故事 。 它 代表 一 组 权限 ， 能 够 为 访问 控制 提供 依据 。 为 了 访问 资源 ， 必 须 为 用 户 分 配角 色 ， 且 和 角 
色 分 配 始终 在 项 目 或 域 上 进行 。Keystone 为 角色 使 用 单个 命名 空间 。 一 个 知名 的 角色 是 管理 员 。 当 涉及 
用 户 时 ， 身 份 服务 还 支持 联合 身份 ， 以 允许 组 织 重 用 其 现 有 身份 管理 系统 ， 从 而 节省 了 Keystone 中 现 
有 组 织 用 户 的 配置 需求 。Keystone 具有 文 持 多 种 联合 身份 协议 (如 SAML 2.0 和 OpenID Connect) 的 灵 
活性 。 目 前 ，Keystone 已 完成 对 SAML 2.0 的 支持 。 

令 牌 服务 的 核心 是 令 牌 的 概念 。 图 7. 25 给 出 了 一 种 简化 工作 流 来 说 明 其 功能 。 同 时 ， 考 虑 配置 虚 
拟 机 的 情况 。 在 访问 Nova 或 其 他 服务 之 前 ，Keystone 首先 对 用 户 进 行 验证 。 在 认证 成 功 后 ， 为 用 户 提 
供用 于 表示 一 组 权限 的 临时 令 牌 。 从 这 一 点 开始 ， 为 了 获得 服务 ， 用 户 (更 确切 地 说 ， 是 用 户 代 理 Ho- 
rizon) 将 令 牌 封装 在 服务 请 求 中 。 只 有 当 令 牌 通过 验证 且 令 牌 表示 的 权限 符合 服务 的 访问 策略 时 ， 用 
户 才能 接收 该 服务 。 如 果 令 有 牌 已 经 过 期 ， 则 用 户 可 以 获得 一 个 新 令 牌 并 尝试 重新 获取 该 服务 。 

如 图 7. 25 tas, Nova 要 求 Keystone 对 令 牌 进行 验证 ， 因 为 Keystone 负责 代码 生成 和 令 牌 验证 。 这 
不 是 唯一 的 处 理 办 法 。 稍 后 将 讨论 男 一 种 方法 和 两 种 方法 的 折 中 。 现 在 ,需要 注意 的 是 ， 当 要 求 Key- 
stone 验证 用 户 令 牌 时 ，Nova (或 任何 其 他 服务 ) 也 需要 提供 目 己 的 令 牌 (在 图 中 用 token 表示 ) 进行 
认证 。Nova 采取 与 终端 用 户 相 同 的 方式 来 获取 令 牌 。 它 需要 通过 认证 。 但 两 者 仍 存在 区 别 。Nova 无 法 
像 人 类 那样 通过 输入 密码 或 其 他 类 型 的 凭据 进行 交互 。 它 只 能 获取 存储 在 预 设 位 置 的 凭据 。 最 简单 的 
解决 方案 是 将 凭据 存储 在 文件 中 。 的 确 ， 这 是 OpenStack 的 默认 设置 。 在 Nova 的 情况 下 ， 存 在 一 份 特 
定 的 配置 文件 ， 且 用 于 验证 的 Keystone 密码 是 明文 。 本 书 将 在 附录 A 中 讨论 存储 密码 的 基本 机 制 。 该 
机 制 甚至 向 权限 最 高 的 管理 员 ( 即 root) 屏蔽 密码 。 但 只 有 当 认 证 过 程 是 交互 式 时 才 有 效 。 

为 了 对 虚拟 机 进行 配置 ，Nova 实际 上 需要 来 自 其 他 OpenStack 组 件 的 服务 。 其 他 步骤 如 图 7. 26 所 
Io Glance 保存 了 图 像 的 注册 表 (包括 块 存储 中 特定 图 像 的 URI) ， 而 Swit 是 将 图 像 作为 对 象 进行 存储 
的 对 象 存 储 。 当 Nova 请 求 来 自 于 男 一 种 组 件 的 服务 时 ， 它 也 会 将 用 户 令 牌 包含 在 内 。 这 是 非常 必要 
的 ， 因 为 每 个 OpenStack 组 件 独立 运行 ， 以 支持 可 扩展 性 。 令 牌 支持 Glance 和 Swift 获知 预期 用 户 及 其 
特权 。 这 种 基于 令 牌 的 方法 具有 重要 的 意义 : 它 可 以 在 不 牺牲 安全 性 的 前 提 下 提高 可 用 性 。 在 既 不 需 
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第 7 章 _ 云 内 部 的 运营 ， 管 理 与 业务 流程 编排 
要 重新 进行 显 式 认 证 又 不 泄露 密码 的 情况 下 ， 用 户 可 以 一 次 登录 并 访问 多 种 服务 。 最 后 ， 正 如 Nova 先 


前 所 做 的 那样 ，Glance 和 Swift 必须 分 别 要 求 Keystone 验证 令 牌 ， 且 在 这 样 做 时 ， 必 须 提供 自己 的 令 牌 
(分 别 表 示 为 tokenG Fil tokenS) 。 


5. 验 证 后 的 令 牌 


4. 验 证 令 牌 (token, tokenN) 


8. 验 证 后 的 令 牌 


7. 验 证 令 牌 (token,tokenG) 
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令 牌 通常 捕获 发 布 时 间 、 有 效 期 和 用 户 信息 。 它 还 可 以 定义 范围 一 与 域 有 关 的 角色 信息 。 如 果 
令 牌 不 包含 此 类 信息 ， 则 将 其 称 为 “无 作用 域 "。 此 类 令 牌 对 于 资源 访问 是 无 用 的 ,但 它 可 以 用 作 发 现 
可 访问 项 目的 垫 脚 石 ， 然 后 为 其 交换 一 个 作用 域 令 牌 。 令 牌 甚至 可 以 捕获 授予 用 户 的 服务 目录 。 
迄今 为 止 ， 应 该 澄清 的 是 ，Keystone 令 牌 属于 承载 令 牌 。 作 为 服务 访问 的 基础 ， 必 须 确 保 令 牌 免 受 
息 泄 露 、 伪 造 和 变更 的 威胁 。 信 息 泄露 保护 是 一 项 大 课题 ， 涉 及 通信 与 信息 安全 等 综合 类 问题 。 防 
伪 和 完整 性 保护 是 不 同 的 事情 易 受 到 令 牌 结构 和 格式 的 影响 。 虽 然 可 以 通过 外 部 模块 来 使 用 自 定 义 
令 牌 ， 但 Keystone 本 身 支 持 Juno 迄今 为 止 发 布 的 3 种 类 型 令 牌 ， 分 别 命 名 为 通用 唯一 标识 符 (Univer- 
sally Unique Identifier，UUID ) 、 公 钥 基 础 设施 (PKI) 和 压缩 版 PKI. 
UUD 令 牌 是 随机 生成 的 字符 串 ， 用 作对 存储 在 持久 性 令 牌 数据 库 中 的 某 条 信息 的 引用 。 它 本 身 没 
有 任何 意义 。 服 务必 须 调用 Keystone 来 验证 接收 到 的 任何 UUD 令 牌 。 实 际 上 ， 这 是 在 前 面 的 工作 流 中 
所 看 到 的 。 如 果 数 据 库 中 存在 一 种 尚未 过 期 的 匹配 令 牌 ， 则 UUD SEAM RA Keystone 可 以 验 
证 令 牌 的 约束 条 件 使 其 成 为 潜在 的 瓶颈 。 然 而 ， 也 有 好 的 一 面 。UUID 令 牌 的 尺 才 很 小 且 固定 〈 即 128 
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位 ) ， 因 而 在 实践 中 它 将 永远 不 会 导致 API 调用 失败 ”。 此 外 ， 伪 造 有 效 的 UUID 令 牌 相对 较 难 。Key- 
stone 使 用 IETF RFC 4122 中 规定 的 UUID 版 本 4。 这 样 的 UUD 包含 生成 的 122 位 伪 随 机 数 。 这 意味 着 
创建 已 在 数据 库 中 的 UUD 的 概率 是 2 “。 最 后 ， 改 变现 有 令 牌 会 导致 新 令 牌 的 产生 。 同 时 ， 新 令 牌 在 
数据 库 中 存在 的 概率 是 2 ”。 

与 UUID 令 牌 不 同 ，PKI 令 牌 不 仅 指向 数据 结构 的 指针 ， 而 且 还 指数 据 结构 本 身 。 该 结构 存储 用 户 
身份 和 授权 信息 。 为 了 防止 对 内 容 进 行 修 改 ， 数 据 结 构 包 含有 数字 签名 。 这 种 令 牌 的 直接 好 处 是 可 以 
通过 服务 端点 进行 验证 。 因 此 ， 关 于 UUD 令 牌 的 瓶颈 和 可 扩展 性 的 担忧 已 不 复 存 在 。 具 体 来 说 ，PKI 
令 牌 是 一 种 密码 消息 语法 (Cryptographic Message Syntax, CMS) 字符 串 〈 使 用 Base64 编码 方式 ) 。 该 令 
牌 包 含 经 过 数字 签名 的 数据 块 。 数 据 的 具体 情况 与 情境 有 关 。 因 此 ， 令 牌 大 小 是 变化 的 。 作 为 实例 ， 
图 7. 27 给 出 了 签名 之 前 的 ISON 令 牌 。 需 要 注意 的 是 ， 它 包括 用 于 用 户 认 证 的 方法 列表 中 的 强制 性 信 
息 。 此 外 ， 为 了 支持 拥有 令 牌 的 认证 用 户 能 够 得 到 不 同 范围 的 男 一 个 令 牌 也 可 以 将 令 牌 看 作 是 一 种 
认证 方法 。 当 认证 用 户 执行 此 操作 时 ， 认 证 方法 列表 将 包括 “密码 ”和 “ 令 牌 ”。 


"token": { 
"expires at": "2017=-05-27T22:52:58.8521672", 
"issued at": "2017-05-27T21:52:58.8521672", 
"methods": ["password"], 
"domain": { 
"id": "3a5140aecd974bD£08041328b53a62458", 
"name": "Wonderland" 


". [{ 
"id": "9fe2fF9ee4384b1894a90878d3e92bab", 
"name": "admin" } 


"user": { 
"domain": { 
"id": "3a5140aecd974b£08041328b53a62458", 
"name": "Wonderland" 


"3e03164£750146be97£21559ee4d9c51", 





默认 情况 下 RSA- SHA256 是 用 于 在 Keystone = 中 生成 数字 签名 的 算法 。 这 意味 着 需要 计算 使 用 
SHA256 算法 对 数据 块 摘要 的 签名 ， 并 通过 使 用 RSA 私 钥 对 摘要 进行 加 密 来 计算 签名 。 除 了 其 他 标 
准 ”， 如 果 签 名 有 效 ， 则 可 判定 PKI 令 牌 合法 的 。 为 了 方便 另 一 服务 端点 的 签名 验证 ，Keystone 支持 通 
过 其 API 来 获取 签名 和 其 他 相关 证 书 。 

PKI 令 牌 的 特征 之 一 是 它 的 尺寸 较 大 。 令 牌 在 尺寸 上 可 以 轻而易举 地 达到 数 千 字 节 。 特 别 是 如 果 令 
牌 包含 用 户 可 访问 的 服务 目录 ， 则 其 大 小 可 能 达到 HTTP 报头 的 实际 极限 值 ， 并 中 断 该 操作 。 为 了 减 小 
SIRT, Keystone XEFE HR o 

遗憾 的 是 ， 无 法 保证 压缩 PKI 令 牌 的 大 小 始终 保持 在 HTTP 报头 极限 值 之 内 。 由 于 UUD 和 PKI $ 
牌 之 间 的 折 中 ，Keystone 中 的 默认 令 牌 类 型 不 是 一 种 解决 方案 。 最 初 是 UUD Sh, FE Grizzly 版 本 中 变 


© OpenStack API 服务 器 实现 是 基于 现 有 开源 HTTP 服务 器 软件 构建 的 。 虽 然 HTTP 标准 对 报头 字段 的 大 小 没有 限制 ， 但 由 
于 操作 和 安全 性 原因 ， 此 类 软件 也 是 这 样 进行 处 理 的 。 例 如 ，Apache 2.4 服务 器 默认 将 报头 字段 的 大 小 限制 为 8190 
字 节 。 

O 其 他 令 牌 验证 标准 是 有 效 期 未 到 ， 且 令 牌 尚未 被 撤销 。 
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成 PKI 令 牌 ， 从 Juno 版 本 开始 又 变 回 UUID 令 牌 2。 

迄今 为 止 ， 已 经 知道 了 Keystone 令 牌 如 何 支持 单 点 登录 和 基本 授权 。 这 些 令 牌 非常 有 用 ， 且 生命 
周期 比较 短暂 (根据 设计 ) 。 当 所 讨论 行动 的 最 后 期 限 未 知 时 ， 令 牌 可 能 会 过 期 ( 且 在 现实 生活 中 实际 
上 真 地 会 过 期 ) 。 想 象 一 下 当 现 有 服务 器 的 CPU 利用 率 达到 60% 时 启动 新 服务 器 的 任务 。 根 据 客户 端 
的 活动 ， 这 可 能 会 在 数 分 钟 、 数 年 内 发 生 ， 甚 至 永远 都 不 会 发 生 。 

因此 ， 需 要 一 些 其 他 机 制 来 动态 获取 令 牌 。 为 此 ，Keystone 引入 了 信任 结构 来 捕获 谁 来 授权 、 谁 获 
得 授权 、 授 权 范围 和 持续 时 间 以 及 其 他 相关 信息 。 

信任 与 授权 书 不 同 。 授 权 实体 生成 授权 书 并 将 其 交 给 被 授权 方 。 现 在 ， 被 授权 方 提供 用 于 获取 令 
牌 的 信任 。 这 种 配置 的 基本 思路 是 令 牌 是 短暂 的 ， 但 信任 是 长 期 的 。 

按照 Keystone 的 说 法 ， 将 授权 实体 称 为 委托 人 ， 被 授权 实体 称 为 受托 人 。 只 有 委托 人 才能 创建 信 
任 关系 。 基 于 信任 关系 ， 受托 人 (但 没有 其 他 人 ) 可 以 得 到 新 令 牌 ， 以 执行 委派 的 任务 。 令 牌 将 具有 
与 信任 相同 的 作用 范围 。 将 这 种 令 牌 称 为 信任 令 牌 。 如 果 不 是 为 了 携带 信任 相关 信息 的 附加 数据 块 ， 
则 其 结构 与 标准 令 牌 的 结构 相同 。 当 然 ， 在 将 信任 用 于 获取 令 牌 时 ， 它 可 能 不 会 过 期 。 

为 了 探讨 信任 的 工作 原理 ， 仔 细 研 究 一 下 用 于 新 堆栈 运行 的 工作 流 的 相关 部 分 。 图 7. 28 给 出 了 一 
种 极 大 简化 的 工作 流 ， 用 于 实例 化 模板 以 提供 堆栈 ， 并 在 运行 堆栈 过 载 时 进行 自动 扩展 。 





7 动 扩 展 的 简化 工作 流程 

当 不 涉及 Heat 时 ， 步 又 1 ~5 基本 上 与 先前 相同 。 在 步骤 5 之 后 ， 将 发 生 一 系列 重头 戏 来 启动 第 一 
个 堆栈 。 这 里 ,将 重点 介绍 用 于 为 自动 化 搭建 舞台 所 需 的 其 他 步骤 。 这 些 步骤 如 图 7. 29 所 示 。 前 先 ， 
设置 一 种 告警 (步骤 5a ~5d); 然后 ,创建 一 种 信任 关系 ， 以 文 持 Heat (充当 服务 用 户 ) 拥有 爱丽 丝 
的 授权 (步骤 5e ~5f) 。 完 成 这 些 步骤 之 后 ，Heat 处 于 监控 模式 ， 等 待 告警 在 Ceilometer 上 出 现 。 最 后 ， 
告警 通知 在 步骤 7 到 达 ”。 收 到 通知 后 ，Heat 继续 获取 信任 令 牌 ， 如 步骤 8 所 示 。 这 里 ，Heat 需要 提供 
自己 的 令 牌 来 证 明 它 是 信任 关系 中 可 以 识别 的 受托 人 。 认 证 成 功 后 ，Heat 接收 到 一 个 信任 令 牌 ， 它 文 
FF Heat 代表 爱丽 丝 局 动 一 台新 虚拟 机 。 

图 7. 30 给 出 了 一 个 信任 实例 。 除 了 “假冒 ”字段 之 外 ， 该 结构 几乎 是 不 解 目 明 的 。 如 果 设 置 为 
假 ， 则 基于 该 信任 的 信任 令 牌 的 用 户 字 段 将 表示 受托 人 。 和 否则， 用 户 字段 将 表示 该 委托 人 。 换 句 话说 ， 
受托 人 在 提供 用 于 验证 的 信任 令 牌 时 ， 假 冒 委托 人 。 在 实例 中 ， 信 任 令 牌 将 爱丽 丝 作为 用 户 的 情况 就 
是 这 样 。 在 给 定 用 于 提供 用 户 堆栈 自动 生命 周期 管理 目标 的 前 提 下 ，Keystone 中 默认 支持 假冒 。 为 达到 
同一 目标 ， 另 两 个 字段 expires_at 和 remaining_uses 也 设置 为 默认 值 。 如 果 未 加 指定 ， 则 expires_ at 
字段 将 拥有 该 信任 有 效 直 到 明确 撤销 的 效果 。 类 似 地 ， 如 果 未 加 指定 ， 则 remaining_uses 字段 将 具有 这 
种 效果 : 可 以 使 用 该 信任 来 无 限 次 地 获得 令 牌 。 最 后 ,一 旦 信任 创建 则 不 可 改变 。 为 了 更 新 信任 关系 ， 
委托 人 将 删除 旧 信 任 ， 并 创建 新 信任 。 在 删除 旧 令 牌 后 ， 由 其 衍生 的 任何 令 牌 将 被 撤销 。 如 果 委 托 人 


© OpenStack 版 本 按 字母 顺序 进行 命名 。 
加 ”虚线 用 于 反映 不 使 用 Keystone 进行 认证 的 独立 通知 机 制 的 事实 。 
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$a. 设 置 告 警 (token) Sb ~ c. 令 牌 验证 


ne 
5e. 创 建 信任 (token) 


5f. 信 任 










8. 得 到 信任 令 牌 (tokenH.,trust) 


9. 信 任 令 牌 
10. 生 成 堆栈 (信任 令 牌 ) 





11 ~12. 信 任 令 牌 验证 
BENE 






"trust"; f 
"expires at": "2016-05-27T21:52:58.8521672Z", 
"id": "c703057be87845858896lce9a0ce686b", 
"impersonation": true, 
"project_id": "fb49a0ecd60c4d2092643b4cfe272106", 
"remaining uses": null, 
"roles": [{ 
"id": "9fe2f79ee4384b1894a9083bd3e92bab", 


"ame": "admin" } 

E 

"trustee_user_id": "29beb2f1567642eb810b042b6719ea88", 
"trustor user_id": "3ec3164£750146be97£21559ee4d9c51" 


i 4 


对 联合 身份 的 支持 会 导致 新 的 认证 工作 流出 现 。 当 接收 到 认证 请 求 时 ，Keystone 不 是 处 理 请 求 本 
号 ， 而 是 将 其 重 定向 到 外 部 身份 提供 商 。 在 接收 到 重 定向 请 求 后 ， 身 份 提供 商 执行 用 于 认证 用 户 的 步 
又 ， 然 后 将 结果 重 定向 到 Keystone。 如 果 证 明 用户 是 可 信 的 ， 则 Keystone 会 生成 一 个 无 作用 域 令 牌 。 用 
户 可 以 根据 该 令 牌 找到 可 访问 的 项 目 ， 并 获得 具有 恰当 作用 范围 的 另 一 个 令 牌 。 针 对 联合 用 户 生成 的 
令 牌 是 不 同 的 一 一 它们 携带 与 联合 相关 的 信息 ， 如 身份 提供 商 的 名 称 、 联 合身 份 协议 和 关联 组 。 

总 之 ， 令 牌 服务 不 仅 文 持 令 牌 的 生成 、 撤 销 和 验证 ， 而 且 还 支持 信任 的 生成 、 撤 销 和 验证 。 作 为 
集中 式 服 务 ， 它 受到 OAuth 2. 0 的 影响 ， 且 可 以 直接 映射 到 OAuth 2. 0 的 授权 服务 器 。 令 牌 类 似 金 钱 的 
特征 〈 令 牌 的 任何 载体 都 可 以 使 用 它 ) 以 及 使 用 JSON 进行 令 牌 描述 与 此 相似 。 然 而 ，Keystone 令 牌 服 
务 拥有 上 自己 的 协议 (以 REST API 的 形式 ) ， 因 为 其 目标 是 非常 不 同 的 用 例 。 本 质 上 ， 用 例 包 括 两 种 角 
色 《 即 用 户 和 云 基础 设施 服务 提供 商 ) ， 其 自动 化 程度 高 ， 但 互动 性 低 。 因 此 ， 用 于 委托 的 不 同 用 户 满 
意 度 模型 已 经 足够 用 了 一 一 用 户 通过 用 来 获得 服务 的 认证 后 ， 就 意味 着 用 户 同 意 委托 。 
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第 7 章 ” 云 内 部 的 运营 、 管 理 与 业务 流程 编排 
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本 附录 的 目的 是 提供 更 多 与 前 面 引 用 主题 有 关 的 信息 : 

1) 第 一 个 专题 关注 的 是 IETF 制定 的 有 关 业 务 和 管理 标准 。 

2) 第 二 个 专题 介绍 了 一 般 建 模 语 言 的 发 展 ， 特 别 是 TOSCA 标准 。 

3) 第 三 个 专题 介绍 了 万 维 网 (World Wide Web, WWW) 架构 中 的 REST API 的 概念 。 
4) 第 四 个 专题 涵盖 了 局 用 认证 和 访问 管理 的 基本 机 制 。 


这 里 介绍 的 标准 主要 是 简单 网 络 管理 协议 (Simple Network Management Protocol ，SNMP ) 、 公 共 开 放 
策略 服务 (Common Open Policy Service, COPS) 和 网 络 配置 (Network Configuration, NETCONF) 协议 。 


A.1.1 SNMP *x** 


互联 网 的 OSI 网 络 管理 方法 既 没 有 被 忽视 ， 也 没有 被 完全 放弃 。 事 实 上， 人 们 仅 将 其 简化 并 限制 
在 较 小 的 具体 问题 上 。 到 目前 为 止 ， 网 络 管理 的 主要 目标 是 监控 ， 而 不 是 配置 管理 。 正 如 即将 看 到 的 
那样 ，SNMP 的 使 用 不 够 普遍 ; 而 在 配置 管理 方面 ， 需 要 一 套 新 的 协议 。 男 外 ， 在 SNMPv3 之 前 ， 人 们 
还 没有 系统 地 研究 访问 管理 的 内 容 (以 及 网 络 管理 的 整体 安全 性 ) 。 

1990 4Æ IETF RFC 1155 定义 了 管理 信息 结构 (Structure of Management Information ，SMI) 。 与 OSI 一 
FE, MIB 使 用 ASN. 1 定义 ,但 ASN. 1 的 使 用 受到 限制 ， 相 关 原 因 将 在 稍 后 解释 。 通 过 对 和 象 标识 件 ， 人 
们 已 经 为 每 种 类 型 的 对 象 分 配 了 一 个 根据 其 编码 指定 的 名 称 。 根 据 管理 策略 对 对 象 标 识 符 进 行 分 配 。 

对 象 标识 符 是 通过 全 局 命名 树 结构 的 路 径 - 。 边 缘由 Unicode 字符 串 标 记 ，Unicode 字符 串 反 过 来 又 
被 编码 成 整数 。 每 个 边缘 指示 相应 的 管理 域 ( 可 随 着 树 被 遍历 而 改变 ) 。 图 A. 1 描述 了 具有 3 个 边缘 的 
树 的 根 ， 它 们 分 别 由 ITU -T (0), ISO (1) 和 ISO 与 ITU -T (2) 共同 管理 。 

在 ISO 管理 下 ， 存 在 国际 组 织 (3) 的 管理 空间 ， 它 为 美国 国防 部 (US Department of Defense, US 
DoD) 提供 了 相应 的 空间 。 其 余 的 SMI 路 径 列 在 该 图 的 右手 侧 。“ 互 联网 (1.3.6.1)” 子 树 被 保留 用 于 
互联 网 编号 分 配 机 构 (Internet Assigned Number Authority, IANA) 管理 的 对 象 。 

为 了 人 允许 独立 的 对 象 定 义 ， 定 义 了 “专用 空间 (1.3.6.1.4)”, 将 1.3.6.1.4.1 的 空间 分 配给 企业 对 象 。 

一 般 ， 所 有 的 标识 符 都 是 通过 OBJECT IDENTIFIER 结构 递归 定义 的 一 一 通过 引用 之 前 定义 的 结构 。 
因此 ， 可 以 写 为 

internet OBJECT IDENTIFIER ::= {iso org (3) dod (6) 1}; 


private OBJECT IDENTIFIER ::= {internet 4}; and 
enterprise OBJECT IDENTIFIER ::= {private 1}. 


RFC 1155 只 人 允许 原始 GERS) 的 ASN. 1 类 型 =。 它 限制 了 列表 和 表格 构造 函数 类 型 的 使 用 ， 并 
定义 了 很 多 的 应 用 程序 类 型 (例如 ， 网 络 地 址 、IP 地 址 、32 位 的 计数 器 和 0.01s 间隔 的 定时 器 等 ) 。 
RFC 1155 进一步 定义 了 MIB 的 格式 。 后 者 是 一 个 五 元 组 ， 包 括 : 





© ”RFC1155 在 描述 这 种 树 形 结 构 方 面 有 些 不 准确 (并 且 有 些 过 时 )， 因此， 使 用 ITU -TX.660 建议 书 中 的 相关 描述 内 容 ， 
其 中 包含 了 所 有 顶级 的 域名 空间 定义 。 
© lE NULL, INTEGER, OCTET STRING 和 OBJECT IDENTIFIER. 


I“ISO” (iso) 


f 1.3.6.1 internet 

| 1.3.6.1.1 directory 
1.3.6.1.2 mgmt 
1.3.6.1.2.1 mib-2 

3“ORG” (org) 1.3.6,1.2.1.2.2,1.3 iff ype 

1.3.6.1.2.1.10 transmission 

| 1,3.6.1.2.1.10.23 transmissionppp | 

= 1.3.6.1.2.1.27 application 
1.3.6.1.2.1.28 mta 
1.3.6.1,.2.2 pib 
1.3.6.1.3 experimental 
1.3.6.1.4 private 
1.3.6.1.4.1 enterprise 

= 1.3.6.1.5 security 
1.3.6.1.6 SNMPv2 

| 1.3.6.1.6.1 snmpDomains 

， 1.3.6.1.6.2 snmpProxys 
1.3.6.1.6.3 snmpModules 
1.3.6.1.7 mail 

> 1.3.6.1.8 features 





MR S| ÄH :ITU-TREWX.660|ISO/IEC 9834- 1 
IETF RFC 1155 





1) 对 象 名 称 (与 OBJECT IDENTIFIER 一 起 的 文本 OBJECT DESCRIPTOR) 。 

2) 对 象 结构 规则 ， 称 为 语法 ， 必 须 解析 为 允许 的 结构 类 型 。 

3) 对 象 类 型 “语义 ”的 定义 ， 该 定义 是 人 可 读 的 ， 而 不 是 面向 机 器 的 ， 用 于 确保 “在 所 有 机 器 上 
会 义 一 致 。 

4) 访问 (只 读 、 读 写 、 只 写 或 不 可 访问 ” ) 。 

5) 状态 〈 强 制 、 可 选 或 过 时 的 ) 。 

RFC 3411 中 列 出 了 SNMP 的 框架 染 构 ， 它 是 互联 网 标准 62 的 一 部 分 。SNMP 系统 通过 在 SNMP 实 
体 之 间 交 换 SNMP 消息 来 实现 。 这 些 实体 中 至 少 有 一 个 是 管理 者 ; 其 他 实体 存在 于 设备 或 网 元 中 。 在 
其 更 一 般 的 形式 中 ， 实 体 的 架构 如 图 A. 2 所 示 。 


SNMP 引 擎 (snmpEngineID) 





O 不 可 访问 的 意思 是 “不 可 访问 SNMP”, 一 个 重要 的 例子 是 加 密 密 钥 ， 必 须 对 其 进行 保密 。SNMPv3 RA (RFC 3414) 里 
定义 了 多 个 这 样 的 对 象 ， 但 是 它们 都 不 可 访问 SNMPv3 协议 。 
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实体 具有 SNMP 引擎 和 应 用 程序 。 引 擎 执行 协议 并 且 还 负责 安全 服务 ， 特 别 是 机 密 性 和 认证 。 在 
一 个 管理 域 中 ， 每 个 引擎 (因此 每 个 实体 ) 都 是 唯一 的 ， 它 被 分 配 了 一 个 名 称 ， 即 snmpEngineID 。 

该 引擎 由 调度 器 、 消 息 处 理子 系统 和 访问 控制 子 系统 组 成 。 

eae iF (并 发 ) 多 个 协议 版 本 ,但 为 SNMP 应 用 程序 提供 单个 抽象 接口 。 

消息 处 理子 系统 依赖 于 特定 域 SNMP 版 本 的 模块 。 

最 后 ， 安 全 子 系统 根据 给 定 的 模型 提供 同名 服务 。 该 模型 以 其 所 防护 的 威胁 和 其 采用 的 协议 为 特 
点 。 只 有 基于 用 户 的 模型 ” 才 被 明确 提 到 ， 但 该 计划 是 允许 所 有 的 模型 都 可 以 作为 插件 。 

访问 控制 子 系统 提供 授权 服务 ( 因此， 可 以 被 认为 是 安全 子 系 统 的 一 部 分 )。 与 安全 子 系统 类 似 ， 
访问 控制 子 系统 依赖 于 一 个 或 多 个 特定 的 访问 控制 模型 。RFC 3415 是 STD 62 的 男 一 部 分 ， 指 定 了 基于 
视图 的 访问 控制 模型 ， 该 模型 决定 了 群 组 的 访问 权限 ， 代 表 具 有 相同 访问 权限 的 零 个 或 多 个 对 象 。 正 
如 该 标准 所 述 ,“ 对 于 由 contextName 标识 的 特定 上 下 文 ， 由 groupName 标识 的 群 组 可 以 使 用 特定 的 se- 
curityModel (安全 模型 ) 和 securityLevel (安全 等 级 ) 进行 访问 ,该 群 组 的 访问 权限 针对 read - view 
( 读 视图 ) write - view ( 写 视图 ) 和 notify - view (通知 视图 ) 指定 ”。 每 个 视图 均 表 示 一 组 被 授权 其 
相应 动作 的 对 象 实例 〈( 即 在 通知 中 读 取 对 象 或 写 人 对 象 ， 或 者 发 送 对 象 ) 。 

就 SNMP 实体 中 的 应 用 程序 而 言 ， 它 们 包括 监视 和 操纵 数据 管理 的 命令 生成 器 、 对 外 提供 数据 管 
理 功 能 的 命令 响应 器 、 发 起 通知 销 息 的 通知 发 起 器 、 处 理 异 步 消息 的 通知 接收 器 ， 以 及 仅 向 接收 方 转 
发 消息 的 代理 转发 右 。 这 些 应 用 程序 都 是 预先 定义 好 的 ， 但 其 并 没有 排除 其 他 的 应 用 程序 ， 因 此 该 架 
构 留 有 地 方 可 以 用 来 插入 其 他 应 用 程序 。 


A.1.2 COPS xx | 


COPS 在 RFC 2748 中 规定 ， 但 是 这 项 工作 的 上 下 文 已 经 在 RFC 2753 中 进行 了 制定 ， 它 提供 了 开发 
的 动机 、 描 述 了 相关 的 术语 ， 并 以 其 他 方式 规定 了 框架 。 下 面 将 简要 介绍 这 个 上 下 文 内 容 。 首 先 ， 该 
框架 的 目标 是 描述 在 QoS 准 入 控制 决策 上 基于 策略 控制 的 执行 情况 ， 其 中 主要 关注 RSVP 并 将 其 作为 示 
Bil 

该 框架 的 目标 是 实现 对 抢占 、 各 种 策略 风格 、 监 管 和 计 费 的 支持 。 这 里 的 抢占 意味 着 移 除 之 前 授 
予 的 资源 以 适应 新 的 请 求 的 能 力 ”。 就 政策 风格 而 言 ， 那 些 需要 得 到 支持 的 包括 基于 提供 商定 义 的 相对 
优先 级 概念 的 双边 和 多 边 服务 协议 和 政策 。 通 过 收集 资源 使 用 和 访问 数据 来 实现 对 监控 和 计 费 的 支持 。 
该 框架 还 规定 了 当 PDP 发 生 故障 或 无 法 达到 的 情况 下 容错 和 恢复 方面 的 要 求 。 

图 A. 3 展示 了 策略 控制 架构 。 其 主要 组 件 是 PDP 和 策略 执行 点 (Policy Enforcement Point, PEP) 。 
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A 认证 服务 





子 系统 这 个 词 指 的 是 一 种 全 面 的 抽象 机 制 。 当 被 设计 用 来 提供 一 组 特定 的 服务 时 ， 它 被 称 为 模型 。 通 过 实现 ， 可 以 将 模 
型 转化 为 真实 的 实体 。 
详细 描述 内 容 请 参见 STD 62 RFC 3414。 该 文档 的 内 容 是 独立 且 全 面 的 ， 易 于 读者 参阅 。 
在 本 节 后 面 的 内 容 中 ， 将 看 到 ETSI、ITU -T 和 3GPP 如 何 进 一 步 扩展 该 框架 ， 使 其 不 仅 包含 其 他 的 QoS 资源 (例如 ， 
diffserv 代码 点 ) ， 还 包括 运营 商 控制 下 的 其 他 所 有 资源 : 专用 地址、 端口 号 、NAT 打 洞 等 。 
这 比 拆 东 墙 补 西 墙 微妙 得 多 。 据 本 书 英文 原版 作者 的 猜测 ， 此 处 的 目的 是 在 极端 负载 条 件 下 优化 网 络 (和 服务 提供 ) 。 
抢占 还 可 以 使 我 们 能 够 处 理 资 源 管理 的 瘤 疾 一 一 “ 死 锁 问题 ”。 
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其 中 ，PDP 进行 基于 策略 的 决策 ; PEP 查询 PDP 并 确保 后 者 的 指令 被 执行 。PEP 是 执行 准 入 控制 网 元 
的 一 部 分 。 图 A. 3 描述 了 PDP 位 于 网 元 之 外 的 一 般 情 况 。 然 而 ，PEP 和 PDP 可 以 同时 位 于 同一 个 物理 
“盒子 ”内 。 为 此 ， 该 框架 允许 同时 使 用 处 于 共同 位 置 的 PDP 模块 [ 称 为 本 地 PDP (Local PDP, LP- 
DP) | 和 远程 PDP 模块 。 

当 PDP 作用 于 事件 (例如 ， 决定 是 否 接 纳 给 定 的 分 组 ) 时 ， 通 常会 触发 PEP 与 PDP 之 间 的 交互 。 
PEP 本 身 也 可 以 通过 发 送 通 知 来 触发 这 种 交互 。 在 前 一 种 情况 下 ，PEP 需要 查询 PPP， 从 而 提供 准 入 控 
制 信息 。 其 中 后 者 可 以 是 flowspec、 所 请 求 的 带宽 量 或 触发 策略 决策 请 求 事件 的 描述 〈 或 它们 的 组 合 ) 。 
PDP 对 决定 进行 响应 ，PEP 通过 接收 或 拒绝 原始 请 求 的 方式 来 对 其 进行 操作 。PDP 还 可 以 发 送 与 准 入 
控制 无 关 的 附加 信息 ， 或 者 用 出 错 消 息 进 行 啊 应 。 | 

为 了 做 出 决定 ，PDP 可 以 依次 从 目录 服务 或 其 他 的 服务 [最 显著 的 是 认证 、 授 权 和 计 费 (Authen- 
tication, Authorization, and Accounting, AAA) 服务 ] 中 请 求 附 加 信息 。PDP 的 另 一 个 功能 是 出 口 与 监控 
和 计 费 目的 相关 的 信息 。 

同时 ，RFC 2750 更 新 了 RSVP， 将 策略 数据 作为 其 协议 中 的 有 效 载荷 ， 由 路 由 器 和 PDP 处 理 , 但 
对 其 他 所 有 实体 来 说 都 是 透明 的 。 使 用 图 A. 4 来 解释 与 RSVP 的 交互 。 


支持 RSVP 的 路 由 絮 


———e LPDP 


准 入 控制 












当 与 RSVP 相关 的 事件 需要 做 出 肛 略 决策 时 ， 预 留 配置 代理 会 咨询 PEP 模块 。 后 者 首先 检查 LPDP, 
以 获得 部 分 策略 决策 (如果 可 用 ) ， 然 后 查询 PPP， 附 加 上 从 LPDP 获取 的 部 分 决策 。 最 终 的 策略 决策 
将 返回 给 预 留 配 置 代理 。 

准 入 控制 请 求 是 一 种 典型 的 情况 〈 通 过 它 关 联 策略 元 素 可 以 被 传递 ) 。 然 而 ，PDP 可 以 同时 请 求 
PEP 向 预 留 配置 代理 发 出 与 策略 问题 相关 的 异常 。 例 如 ，PDP 可 以 批准 继续 进行 软 状态 安装 的 请 求 ， 
并 将 预 留 向 上 游 转发 ， 但 是 会 话 时 间 可 能 受到 限制 ， 因 此 关于 路 径 到 期 的 相应 通知 也 需要 向 上 游 传 送 。 
这 个 例子 说 明了 COPS 和 RSVP 之 间 重 要 交互 的 必要 性 。 

因此 ， 每 当 PDP 返回 错误 时 ， 它 必须 指定 产生 准 入 控制 请 求 的 事件 是 按照 常规 进行 处 理 (但 是 添 
加 了 错误 通知 ) 还 是 停止 处 理 。 

相反 地 ， 当 先前 做 出 的 决定 需要 改变 或 检测 到 错误 时 ，PDP 本 身 可 以 自己 发 起 与 PEP 的 通信 OÑ 
过 发 出 通知 ) 。 如 果 通 知 需 要 沿 着 预 留 路 径 传 播 ， 则 PEP 必须 将 该 信息 传达 给 预 留 代 理 。 

为 策略 的 一 般 管理 、 配 置 和 执行 而 创建 的 实际 COPS 协议 与 上 述 框架 一 致 。 

与 SNMP 或 CMIP 相 比 ，COPS 中 的 新 内 容 体现 在 ，COPS 使 用 有 状态 的 客户 端 -服务 器 模式 ， 这 与 
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远程 过 程 调用 的 模型 不 同 。 与 所 有 的 客户 端 - 服务 器 模型 一 样 ，PEP (客户 端 向 远程 PDP (服务 器 ) 
发 送 请 求 ，PDP 以 决定 予以 响应 。 但 所 有 客户 端 PEP 的 请 求 都 由 远程 PDP 安装 和 记 住 ， 直 到 被 PEP 明 
确 删除 。 这 些 决定 可 以 以 单个 请 求 的 一 系列 通知 的 形式 出 现 。 实 际 上 ， 这 引入 了 一 个 新 的 行为 : 两 个 
相同 的 请 求 可 能 会 导致 不 同 的 响应 ， 因 为 系统 的 状态 在 第 一 个 请 求 和 第 二 个 请 求 到 达 时 可 能 不 同 ， 具 
体 取决 于 已 安装 的 状态 。COPS 的 另 一 个 有 状态 的 特征 是 ，PDP 可 以 将 配置 信息 “推送 ”给 客户 端 ， 然 
后 将 其 删除 。 

COPS 状态 模型 文 持 两 种 策略 控制 机 制 ， 分 别称 为 外 包 模 式 和 配置 模式 。 通 过 外 包 横 式 ，PEP 在 每 
次 需要 决策 时 查询 PDP; 当 采 用 配置 机 制 时 ，PDP 规定 了 PEP 内 的 策略 决策 。 

与 SNMP 不 同 ，COPS 旨 在 利用 目 识 别 对 象 ， 因 此 具有 可 扩展 性 。COPS 也 可 以 在 TCP 上 运行 ， 确 
保重 新 传输 。 虽 然 COPS 可 以 依 徘 TLS， 但 它 也 有 自己 安全 的 机 制 ， 用 于 认证 、 防 止 重 放 攻 击 和 消息 完 
整 性 等 安全 操作 。 

人 们 发 现 COPS 模型 在 电信 和 领域 非常 有 用 ， 其 中 应 用 了 该 模型 并 将 其 进一步 扩展 实现 了 对 QoS AY Sz 
持 。 就 云 计算 而 言 ，COPS 的 主要 应 用 是 SDN. 


A.1.3 ”网络 配置 模型 和 协议 xt 所 
图 A. 5 展示 了 NETCONF 架构 。 
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至 少 在 开发 之 初 ， 该 架构 使 用 的 是 命令 行 界面 ， 这 解释 了 它 所 特有 的 一 些 特 征 。 该 协议 遵循 客户 
端 - 服务 器 模式 ， 因 为 客户 端 发 出 命令 ， 该 命令 在 远程 过 程 调 用 中 被 携带 ， 并 且 从 返回 中 获取 结果 。 
服务 器 通过 配置 数据 存储 区 执行 命令 。REFC 6241 将 此 术语 定义 如 下 : “数据 存储 区 持 有 将 设备 从 初始 
默认 状态 转变 为 目标 操作 状态 所 需 的 完整 配置 数据 集 ”。 反 过 来 ， 数 据 存储 区 又 被 定义 为 “存储 和 访问 
信息 的 概念 上 的 位 置 ”。 就 实现 而 言 , “数据 存储 区 可 以 实现 ， 例 如 ， 使 用 文件 、 数 据 库 、 内 存 位 置 或 
它们 的 组 合 ”” 。 | 

在 这 种 设计 中 ， 客 户 端 - ARS AE IA CLI 都 有 两 个 主要 的 出 发 点 。NETCONF 架构 背离 了 严格 的 
客户 端 - 服 务 器 模式 ， 该 架构 支持 异步 通信 ， 它 从 服务 器 上 获取 通知 。 这 些 是 客户 端 需要 关注 的 有 效 
中 断 ， 因 此 客户 端 必 须 被 设计 以 提供 适当 的 终端 处 理 程序 。NETCONF 也 背离 了 CLI xt, NETCONF 使 
用 了 结构 化 的 XML 编码 数据 。 总 之 ，NETCONF 规定 ”了 一 种 面向 对 象 的 分 布 式 基 础 架构 。 

这 种 基础 架构 以 及 所 有 其 他 的 NETCONF 部 分 可 以 很 方便 地 展现 在 四 层 结构 中 ， 如 图 A.6 pa. X 
循 RFC 6241， 各 层 由 相应 的 示例 进行 说 明 ， 如 图 中 右 侧 所 示 。 

在 该 分 层 结构 中 ， 底 层 被 称 为 安全 传输 层 〈 需 要 注意 的 是 ， 所 有 这 4 层 都 是 OSI 应 用 层 中 的 模块 。 
将 “传输 ”一 词 作为 这 层 的 名 称 是 不 幸 的 ， 因 为 该 名 称 与 0SI 层次 结构 中 所 用 的 术语 相 冲 突 。 但 是 ， 
如 果 人 们 记 住 NETCONF 从 严格 意义 上 来 说 是 应 用 层 协议 ， 并 且 “ 安 全 传输 ”这 一 关键 词 的 重点 是 

O ”不 是 很 清楚 为 什么 这 个 定义 需要 将 操作 系统 对 象 文件) 、 具 体 的 文件 系统 〈 数 据 库 ) 和 物理 设备 (闪存 ) 混合 在 一 

起 ， 但 是 能 够 理解 其 中 的 要 点 。 

O 图 中 的 云 象征 着 这 种 基础 设施 ， 所 以 这 个 符号 在 这 种 情况 下 与 云 计 算 无 关 。 

四 ”特别 有 趣 的 是 ， 这 里 “传输 ”的 实际 含义 是 “会 话 ” 。 但 是 ， 实 际 上 ， 在 整个 RFC 以 及 其 配套 的 RFC 中 都 使 用 了 “会 
话 ” 一 词 。 这 意味 着 会 话 一 旦 建立 ， 在 会 话 的 环境 下 会 发 生 很 多 其 他 的 事情 〈 例 如 ， 订 阅 通知 ) 。 
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“安全 ”， 那 么 就 可 以 避免 混 消 ) 。 这 个 术语 真正 体现 的 是 ， 所 有 的 NETCONF 消息 都 必须 通过 安全 接口 
进行 传递 。 最 初 ， 这 个 例子 是 由 安全 外 索 (Secure Shell, SSH) 协议 支持 的 ， 而 不 是 Telnet, HH CLI 
命令 以 明文 的 形式 自由 地 进行 传输 (再 次 强调 ，SSH 是 为 CLI 开发 的 。 通 过 SSH， 人 们 可 以 访问 Shell 
解释 器， 否则 只 能 通过 不 安全 的 Telnet 来 进行 访问 ) 。 

然而 ， 随 着 时 间 的 推移 ， 其 他 协议 (特别 是 TLS) 已 经 被 人 们 所 接受 。 该 层 必须 提供 认证 、 数 据 
完整 性 、 机 密 性 和 重 放 防 护 功 能 。 

下 一 层 一 一 消息 ， 它 只 是 一 种 传输 无 关 的 框架 机 制 ， 用 于 对 RPC 相关 的 和 通知 相关 的 结构 进行 纺 
码 。 图 A.6 示例 条 目 中 列 出 了 4 个 RPC 结构 中 的 要 素 。 通 知 要 素 列 在 RFC 5277 中 。 接 下 来 ， 将 给 出 一 
个 RPC 调用 规范 的 例子 。， 

图 A.7 同时 展示 了 客户 端 deck -the -halls 方法 调用 和 服务 器 回复 的 XML 编码 ， 其 中 前 者 中 的 单个 
参数 是 字符 串 boughs_ of_ holly, AG, <rpe > 元 素 带 有 一 个 强制 属性 message - id， 它 是 一 个 字符 串 ， 
目的 是 唯一 标识 这 条 消息 以 便 使 用 相应 的 < rpe - reply > 回应 ) 。 该 字符 串 由 RPC 的 发 送 方 选择 。 本 
例 中 将 其 选 为 123 ， 遵 循 整数 编码 的 传统 。 

< rpe > 元 素 由 NETCONF 定义 ， 相 应 的 命名 空间 由 xmlns 字符 串 引 用 。 该 方法 的 名 称 deck — the - 
halls 遵循 这 一 规则 。 由 于 引入 了 这 种 方法 ， 所 以 必须 在 xmlns 字符 串 的 后 面 提供 命名 空间 的 URI。 在 该 
例 中 ， 唯 一 的 参数 (调用 了 <fixture > 元 素 ) 是 字符 串 boughs_ of_ holly, 一 个 常量 值 。 

a) <rpc message-id="123”"” 
xmlns="urn:ietf:params:xml:ns:netconf:base:1.0"> 


<deck-the-halls 
xmlns="http://example.net/Cloud/deck-the-halls/1.0"> 
<fixture boughs of holly> 
</fixture> 
</deck-the-halls> 
</rpc> 


b) <rpc-reply message-id="123" 
xmlns="urn:ietf:params:xml:ns:netconf:base:1.0"> 
<ok/> 
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在 执行 成 功 的 情况 下 ， 使 用 < ok > 元 素 返 回 <rpe -reply > (和 否则 ,使 用 < rpe -error > 返回 ， 在 这 
种 情况 下 ， 将 在 其 中 指定 错误 原因 )。 

回 到 图 A. 6 描述 的 层 中 。 在 第 三 层 一 一 操作 ，NETCONF 定义 了 基本 的 协议 操作 。 这 些 操作 包括 
< get — config >, < edit — config > < copy — config > < delete - config >, < lock >, < unlock >, 
< close — session > 和 < kill - session > 。 其 中 ， 前 四 个 不 言 而 喻 ; 每 个 名 称 中 的 动词 指定 了 在 配置 (或 
其 一 部 分 ) 上 执行 的 操作 。 在 回复 参数 的 选择 中 有 很 多 细微 差别 ，RFC 为 此 给 出 了 很 好 的 解释 。 

< lock > 操作 是 要 求 服务 上 锅 拒 绝 (可 能 在 较 短 时 间 内 ) 来 自 其 他 客户 端 (包括 SNMP AP im WIT 
CLI 脚本 的 客户 疹 或 人 类 用 户 ) 对 整个 数据 存储 区 修改 的 请 求 。 在 < unlock > 操作 发 出 之 前 或 者 取消 会 
话 持续 时 间 内 永久 锁定 的 系统 之 前 ， 锁 定 (lock) 是 有 效 的 。 如 果 数 据 存 储 区 被 锁定 ， 那 么 来 自 其 他 客 
Fain ft) < edit -config >, < copy — config > 或 < delete - config > 请求 将 被 拒绝 (服务 需 不 负责 信号 或 监视 
设施 的 维护 ， 这 是 客户 端的 工作 ) o 

然而 ， 在 服务 器 端 有 一 种 更 微妙 < lock > 操作 执行 方法 ， 稍 后 将 介绍 这 个 内 容 。 对 于 其 余 两 种 操 
作 ，< close - session > 用 于 释放 所 有 锁定 和 其 他 资源 ， 并 终止 底层 的 安全 传输 会 话 (这 似乎 有 点 尴 众 ， 
因为 没有 < open - session > 操作 与 之 对 应 了; 这 里 的 总 体 想法 是 强制 释放 锁定 和 其 他 的 资源 ) 。 < kill - 
session > 实现 的 效果 与 之 相同 ,但 是 在 与 其 他 的 一 些 会 话 中 ， 只 有 发 出 这 个 操作 的 客户 端 拥有 适当 的 授 
权 ， 这 一 操作 的 执行 才 可 能 会 成 功 。 

上 一 段 提 到 的 微妙 指 的 是 ， 在 配置 更 新 方面 ，NETCONF 支持 并 部 分 实现 了 称 为 ACID | 原子 性 
( Atomicity) 、 一 致 性 (Consistency). MA BPE (Isolation) 、 持 和 久 性 (Durability ) ] 的 事务 模型 (AKI 
问题 的 详细 内 容 ， 请 参见 本 附录 参考 文献 [1] 的 第 20 章 ) 。 简 而 言 之 ， 这 些 属性 指 的 是 在 分 布 式 环境 
中 构成 事务 的 一 组 操作 。 顺 便 说 一 下 ， 这 是 一 种 经 典 的 业务 流程 架构 。 

这 里 第 一 个 主要 问题 是 确保 整个 操作 成 功 一 一 考虑 当 一 个 或 多 个 主机 在 事务 中 突然 朋 江 时， 在 分 
布 式 环境 中 可 能 发 生 的 情况 ,或 者 在 出 现 故 障 的 情况 下 ， 所 有 已 经 执行 操作 的 效果 都 可 以 被 撤销 。 

典型 的 例子 是 从 取款 机 中 提取 现金 。 这 涉及 借 记 账户 和 分 配 现金 。 如 果 机 器 无 法 发 出 现金 ， 则 不 
得 将 现金 从 账户 中 扣除 ， 即 借 记 账户 ; 反 过 来 ， 机 需 在 借 记 账户 〈 就 是 扣除 现金 ) 之 前 ， 不 得 退出 
现金 。 

原子 性 是 解决 这 个 问题 的 属性 。 它 是 通过 在 实际 执行 这 些 更 改 之 前 ， 记 录 和 跟踪 所 有 成 功 事 务 操 
作 的 效果 并 将 其 作为 候选 项 来 实现 的 。 当 有 一 个 操作 失败 时 ， 日 志 刷 新 ， 因 此 事务 可 以 回 滚 到 初始 状 
态 。 和 否则 ， 当 所 有 操作 成 功 完 成 并 且 将 所 涉及 的 操作 项 目 提 交 给 事务 时 ， 它 才 得 以 完成 (即时 服务 髓 
在 最 后 一 个 阶段 骨 演 ， 重 新 启动 后 ， 它 仍然 可 以 根据 日 志 ， 执 行 提交 的 事务 )。 

这 里 的 一 致 性 属性 意味 着 ， 如 果 在 事务 开始 之 前 ， 关 联 的 数据 一 致 ， 那 么 这 些 数 据 在 事务 完成 后 
也 将 保持 一 致 。 隔 离 属性 用 于 处 理 未 完成 事务 中 步骤 的 可 见 性 ， 它 是 依赖 于 实现 的 。 持 久 性 涉及 的 是 
处 理 崩 演 系 统 状 态 的 保存 〈( 例 如， 在 日 志 中 ) 。 

为 此 ，NETCONF 将 其 < commit > 操作 的 效果 定义 如 下 : 

“< commit > 操作 指示 设备 实现 候选 配置 中 包含 的 配置 数据 。 如 果 设 备 无 法 提交 候选 配置 数据 存储 
区 中 的 所 有 更 改 ， 则 运行 配置 必须 保持 不 变 。 如 果 设 备 提交 成 功 ， 则 必须 使 用 候选 配置 的 内 容 更 新 运 
行 配 置 ”。 

NETCONF 定义 了 < rollback -on - error > 功能， 在 这 种 情况 下 ，< edit - config > 操作 的 < error - op- 
tion > 参数 可 以 被 设置 成 < rollback - on -error > 。 为 了 避免 在 共享 配置 的 情况 下 不 一 致 ，RFC 建议 客户 
端 锁定 配置 。 这 就 是 标准 明确 禁止 授权 锁定 的 原因 ,“ 如 果 满 足以 下 条 件 之 一 : 

1) 任意 一 个 NETCONF 会 话 或 另 一 个 实体 已 经 拥有 了 一 个 锁定 ; 

2) 目标 配置 是 < candidate > ， 它 已 被 修改 ， 并 且 这 些 更 改 尚 未 提交 或 回 滚 ; 

3) 目标 配置 是 < running > ， 另 一 个 NETCONF 会 话 有 一 个 正在 进行 确认 的 提交 。”™ 

正如 看 到 的 ， 操 作 层 是 相当 重要 的 (查阅 RFC 6241 的 所 有 112 页 内 容 可 以 明确 证 实 这 一 点 ， 其 中 
更 多 的 是 相应 的 编程 工作 ) 。 对 于 处 理 这 种 实现 的 开发 人 员 来 说 ， 需 要 一 种 程序 化 的 表示 ， 这 就 是 构成 


加 ”会话 的 开启 是 通过 建立 安全 传输 连接 和 发 现 服务 器 支持 的 NETCONF 功能 (一 组 指定 的 协议 扩展 ) 来 实现 的 。 
© = <confirmed - commit > 是 男 一 个 NETCONF 定义 的 功能 。 
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该 模型 结构 的 第 四 层 一 一 内 容 。 但 是 RFC 6241 没有 定义 这 一 层 ， 而 是 将 这 项 工作 指定 给 为 一 个 标准 化 
工作 ， 由 其 指定 “NETCONF 数据 模型 和 协议 操作 ,涵盖 操作 层 和 内 容 层 ”。 侠 运 的 是 ，IETF NETMOD 
工作 组 已 经 完成 了 这 样 的 一 个 规范 ， 称 为 YANG”， 发 布 在 RFC 6020 中 。 

在 本 书 中 ， 将 无 法 对 YANG 的 内 容 进 行 详细 的 论述 ,但 是 感 兴 趣 的 读者 会 发 现 RFC 6020 HAAS 
得 非常 不 错 。 我们 只 注意 到 ，YANG 实际 上 是 NETCONF 的 建 模 语言 。 它 使 用 了 很 好 的 结构 ， 所 以 用 其 
进行 建 模 之 后 ， 人 们 可 以 发 现 它 的 高 级 视图 和 NETCONF 操作 中 的 最 终 编码 。 通 过 设计 ，YANG 还 可 以 
进行 扩展 ， 从 而 允许 其 他 SDO 对 其 扩展 进行 开发 ， 并 且 让 单个 编程 人 员 来 生成 即 插 即 用 模块 。 

YANG 还 保持 (有 限 地 ) 与 SNMP 的 兼容 性 : SMIv2 MIB 模块 可 以 自动 地 转换 为 YANG 模块 进行 只 
读 访问 。 | 

Ash, NETCONF 被 广泛 用 在 SDN ， 用 于 配置 虚拟 交换 机 。 如 第 7 章 所 述 ， 有 一 些 NETCONF fh 
件 可 用 于 这 一 目的 ， 这 些 插件 作为 开源 SDN 项 目 Open Daylight 的 一 部 分 。 





前 面 已 经 介绍 过 ， 云 应 用 程序 的 拓扑 结构 和 业务 流程 规范 (Topology and Orchestration Specification 
for Cloud Applications, TOSCA) 是 一 种 OASIS 标准 所 。 在 撰写 本 书 (英文 原版 ) 时 ， 它 已 被 业界 所 采 
纳 。TOSCA 是 一 种 生命 周期 软件 管理 的 DSL， 还 是 一 种 建 模 语言 ， 它 描述 了 服务 的 结构 (一 个 模型 )， 
用 于 表达 要 运行 它 而 不 是 以 程序 化 的 方式 实现 时 需要 完成 的 工作 ， 至 于 如 何 实现 则 由 解释 右上 和 目 动 生成 。 

这 些 类 型 的 语言 没有 一 人 夜 之 间 出 现 。 人 们 对 特定 域 建 模 更 为 普遍 的 看 法 是 ， 特 定 域 建 模 是 一 种 通 
过 自动 代码 生成 来 提高 软件 生产 率 的 手段 ， 这 种 源 自 高 级 规范 的 看 法 得 到 了 特定 域 建 模 ( Domain - 
Specific Modeling, DSM) 论坛 的 支持 ， 该 论坛 网 站 提供 了 很 多 有 关 这 方面 内 容 的 有 趣 信 息 (包括 权威 
性 的 参考 书目 ) 。 

本 书 从 历史 的 角度 回顾 了 多 个 关键 技术 ， 在 特定 域 语 言 的 发 展 方面 ， 最 重大 的 突破 是 在 20 世纪 70 
年 代 来 实现 的 。 在 开始 撰写 本 书 (英文 原版 ) 时 ， 与 我 们 第 一 次 见面 的 Noah Prywes 教授 曾经 发 表 了 一 
篇 开创 性 的 论文 ”， 介绍 了 “模块 描述 语言 (Module Description Language，MODEL) ， 该 语言 旨 在 供 管 
理 、 商 业 或 会 计 专家 使 用 ， 而 不 需要 它们 接受 任何 计算 机 方面 的 培训 ”。MODEL 描述 了 “输入 、 输 出 
和 与 系统 规范 相关 的 各 种 公式 ”, 但 是 没有 提供 编 序 信息 。 后 者 是 MODEL SEEM PE, HE ATTA 
成 代码 〈 可 能 在 解决 与 编程 人 员 交 互 过 程 中 的 不 一 致 或 歧义 之 后 ) 。 在 20 世纪 80 年 代 和 90 ER, T 
夕 法 尼 亚 大 学 的 Prywes 教授 和 他 的 研究 生 设计 了 一 个 完整 的 分 布 式 软件 生命 周期 规范 系统 ， 该 系统 还 
可 以 用 于 逆向 工程 ”。 这 是 一 个 成 功 的 技术 转让 例子 ， 基 于 研究 成 果 的 实际 MODEL 产品 ， 由 计算 机 指 
挥 和 控制 公司 进行 开发 和 销售 。 

回 到 TOSCA。 借 助 图 A. 8 来 解释 TOSCA 在 应 用 程序 业务 流程 中 的 作用 ， 该 图 是 基于 Sivan Barzilay 
提供 的 宝贵 资料 做 出 的 。 预 计 这 里 的 一 个 应 用 程序 将 使 用 多 个 虚拟 机 〈 包 括 虚 拟 网 络 设 备 ) ， 以 特定 的 
方式 相互 连接 ， 并 由 一 组 策略 进行 排列 。 这 里 的 典型 示例 是 运营 商 网络 中 部 署 的 虚拟 网 络 功能 (如 
IMS) 。 

在 底层 “基础 设施 层 ” 的 管理 网 络 功能 虚拟 化 过 于 复杂 ， 正 如 在 第 7 章 讨论 电话 网 络 管理 演进 时 
演示 的 那样 。 在 Iaas 层 ， 我 们 知道 如 何 编排 堆栈 的 业务 流程 。 具 体 来 说 ， 熟 悉 OpenStack 的 业务 流程 机 
制 ， 这 些 机 制 当然 适用 于 基于 OpenStack 软件 云 节点 (数据 中 心 )。 但 是 ， 如 果 存 在 一 些 部 署 了 其 他 实 
现 的 节点 呢 ?” 为 了 在 这 种 情况 下 保持 统一 的 服务 规范 ， 我们 需要 在 转换 器 层 终止 Heat API， 其 中 后 端 功 


O “fA (YANC) ”是 中 国 哲学 中 两 个 对 立 辩 证 且 内 在 关联 的 概念 “ 阴 (YIN) 和 阳 (YANG)” 中 的 一 个 ， 这 些 概 念 起 源 
甚 早 。 早 在 公元 前 700 年 左右 就 出 现 了 。 秦 国 时 期 的 《 易 经 》 中 写 道 ,“ 阴 ”代表 的 是 “女性 、 被 动 、 负 面 "， 而 “ 阳 ” 
则 代表 了 “男性 、 主 动 、 正 面 "。 例 如 ， 太 阳 是 阳 ， 而 月 亮 是 了 明 。 阴 和 阳 是 不 可 分 割 的 。 类 似 地 ，RFC 6020 将 “YIN 
( 阴 ) ”定义 为 “YANG ( 阳 )”( 一 种 数据 建 模 语言 ) 的 一 种 基于 XML 的 表示 形式 : “YANG 模块 可 以 被 转换 为 一 种 等 
效 的 XML 语法 ， 称 为 YIN (YANG Independent Notation, YANG 独立 标记 法 ) (摘自 RFC 6020 中 第 11 节 ) ， 人 允许 使 用 
XML 解析 器 和 可 扩展 样式 表 语言 转换 (Extensible Stylesheet Language Transformations, XSLT) 脚本 的 应 用 程序 对 模型 进行 
操作 。 这 种 从 “YANG” 到 “YIN” 的 转换 是 无 损 的 ， 所 以 YIN 的 内 容 可 以 回潮 到 YANG” . 
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能 将 接管 转换 任务 。 











在 堆 楼层， 将 虚拟 化 与 数据 通信 ( (和 SDN) PTY TA 需要 将 堆栈 的 业务 流程 与 网 络 托 扑 结 
构 实 体 进行 整合 。 再 次 强调 一 下 ， 这 一 方面 对 于 网 络 功能 虚拟 化 至 关 重 要 ， 其 中 应 用 实际 上 是 网 络 即 
服务 。 

自然 地 ， 为 了 将 广域网 与 堆栈 业务 流程 进行 整合 ， 需 要 另 一 层 抽 象 和 规范 ， 以 便 在 不 同 的 平台 上 
实现 对 这 些 服务 的 移植 。 这 正 是 TOSCA 旨 在 实现 的 目标 。 

核心 的 TOSCA 规范 “描述 了 服务 组 件 以 及 这 些 组 件 之 间 的 关系 。 另 外 ， 也 是 关键 的 一 点 一 一 规范 
语言 允许 通过 管理 程序 为 创建 和 修改 业务 流程 中 的 服务 指定 操作 行为 。 因 此 ，TOSCA 服务 模板 描述 了 
在 整个 生命 周期 内 跨 不 同 环境 保存 的 拓扑 结构 和 业务 流程 中 的 恒定 量 。 

要 想 了 解 更 多 细节 ， 可 以 先 从 命名 空间 开始 。TOSCA 使 用 XML 并 定义 了 两 个 命名 空间 前 级: 默认 
的 前 级 是 tosca; 男 一 个 前 级 是 xs。TOSCA 扩展 机 制 支 持 从 其 他 命名 空间 导出 实体 〈 属 性 和 元 素 ) ， 因 
为 它们 不 能 与 TOSCA 命名 空间 的 任何 实体 相 冲突 。 

图 A. 9 对 服务 模板 的 抽象 语法 结构 进行 了 描述 (后 面 将 通过 一 个 具体 的 例子 ， 来 对 抽象 的 含义 进 
行 说 明 ) 。 








服务 的 基本 组 件 称 为 节点 ， TE OKKAN, NEA) TREINOU 
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中 被 声明 。 例 如 ， 部 署 在 云 上 的 Web 服务 中 的 节点 类 型 可 以 是 名 为 My_ App 的 Web 服务 器 应 用 程序 ; 
一 个 Web 服务 器 X_ Web_ Server; 底层 的 操作 系统 Y_ Linux (Linux 版 本 ); 承载 应 用 程序 的 虚拟 机 
Virtual_ Machine; 以 及 提供 虚拟 机 的 云 服务 Z_ Cloud, 

每 个 节点 类 型 定义 了 服务 组 件 的 属性 以 及 要 执行 操作 的 各 个 接口 。 在 服务 器 型 节点 中 ， 属 性 包括 
CPU 的 数量 、 内 存 大 小 、 要 实例 化 的 映像 的 名 称 ， 以 及 作为 基本 安全 属性 的 SSH 密 钥 对 的 位 置 (参见 
图 A. 11) (可 以 通过 指定 的 输入 过 程 获取 上 述 参 数 的 值 )。 这 些 接 口 指定 了 服务 生命 周期 内 在 节点 上 执 
行 的 操作 。 每 个 操作 (例如 ,创建 、 开 局 或 停止 ) 与 指向 实际 实现 该 操作 的 脚本 的 指针 一 起 出 现 ， 
例如 : 

| create: scripts/server library/install server.sh. 

这 是 TOSCA 中 提供 程序 插件 接口 的 地 方 。 关 系 类 型 规定 了 给 定 类 型 节点 之 间 的 关系 (或 连接 )， 
其 思想 是 服务 是 一 个 有 癌 图 ， 图 的 顶点 是 节点 ， 边 是 关系 。 

关系 类 型 规定 了 哪些 节点 可 以 连接 。 通 过 明确 声明 源 和 目标 元 素来 表示 方向 ( 稍 后 将 看 到 ， 方 向 
对 于 建立 处 理 顺 序 至 关 重 要 )。 接 口 部 分 允许 我 们 插入 代码 ， 就 像 节点 类 型 的 情况 一 样 。 

这 种 基于 图 的 表示 (以 及 通过 遍历 图 得 到 的 后 续 动 作 推 导 ) 是 在 TOSCA 中 使 用 “拓扑 结构 ”一 
的 原因 。 使 用 早期 节点 的 例子 ， 可 以 使 用 关系 类 型 HostedOn, 如 My_ App [is] HostedOn X_ Web_ 
Server 中 所 示 。 但 是 My_ App 也 可 以 使 用 由 市 点 My_ Database 表示 的 数据 库 服务 ， 为 了 指定 这 种 关系 ， 
将 引入 一 种 新 的 关系 类 型 QueriesDatabase” 。 

总 体 来 说 ，TOSCA 拓扑 结构 模板 由 一 组 节点 模板 和 关系 模板 组 成 。 图 A. 10 对 Web 服务 示意 图 的 
部 分 拓扑 结构 模板 进行 了 说 明 。 


pase 


My_ Database 
HostedOn 


HostedOn 


HostedOn 


HostedOn 


queries 





TOSCA 服务 模板 的 最 后 一 个 要 素 是 计划 "ALGAE T(E ERE SS A TA 
行 了 定义 。 在 选择 一 种 规范 语言 的 情况 下 ，TOSCA 可 遵循 其 他 标准 ， 例 如 OASIS 自己 的 Web 服务 业务 
流程 执行 语言 (Business Process Execution Language, BPEL) 或 对 象 管理 组 制定 的 业务 流程 建 模 标记 法 
(Business Process Modeling and Notation ，BPMN ) ， 尽 管 它 可 以 使 用 其 他 的 语言 。 无 论 哪 种 方式 ， 工 作 流 
都 是 指定 义 为 节点 和 关系 模板 部 分 的 操作 (例如 ， 在 接口 规范 中 )。 

图 A. 11 (由 Sivan Barzilay 提供 ) 是 将 TOSCA 模板 转换 为 可 以 由 AWS CloudFormation 和 OpenStack 
理解 的 HOT 模板 的 简 音 示例。 但是， 怎样 将 一 个 规范 解释 成 能 够 支持 生命 周期 操作 顺序 的 方法 ?节点 
模板 对 如 何 部 署 和 管理 节点 的 问题 给 出 了 一 个 相当 简单 的 答案 。 ee 
(并 且 ， 正 如 前 面 提 到 的 ， 它 可 以 支持 注 和 人 额外 的 处 理 逻 辑 ) 。 例 如 ， 对 于 类 型 为 HostedOn 的 关系 ， 

机 上 自然 应 该 在 该 主机 承载 的 节点 之 前 进行 创建 和 配置 。 类 似 地 ， 对 于 客户 端 - 服务 器 关系 ， -e 
须 在 其 所 有 客户 端 之 前 进行 处 理 。 


加 ”这 种 关系 类 型 通常 被 命名 为 ConnectsToDatabase。 
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a) ` b) 
tosca_ definitions _ version: tosca _simple_yaml 100 build _ 1 heat_template_version: ‘9013-05-23’ 


resources: 
serveri_119677379087827598: 
inputs: metadata: {deploymentid: '119677379087827597’, 
image_name: deploymentNodeld: '119677379087827598'} 
type: string properties: 
default: tinyCentos availability_zone: zone0 
flavor: default 


description: My most simple server template 


keypair_name: 
type: string 


key_name: TEST-KEYPAIR-FOR-BDD 
node_tempiates: metadata: {deploymentid: '119677379087827597', 


servert: deploymentNodeld: '119677379087827598'} 
type: Ournodes.Compute name: cPaaS_server1_119677379087827598 
gcse ; networks: 
ant site: 1024 - port: {get_resource: 
image_name: { get_input: image_name] server!_119677379087827598_mgnt_port} 
keypair_name: { get_input: keypair_name} type: OS::Nova::Server 
server1_119677379087827598_mgnt_port: 
properties: 
fixed_ips: n 
-{ip_address: 10.38.237.63, subnet_id: 66bc11c4-2312-4c55- 
a169-20ca0d21f5f1} 
network_id: 8796324e-7a75-43f7-8be8-32581d846f5c 
security_groups: [d8be0483-77da-41b5-bc1 7-a55c2eaa0384] 
type: OS::Neutron::Port 





有 关 这 方面 的 更 多 内 容 ， 推荐 读者 参阅 一 篇 不 错 的 论文 EEATT TOSCA A 模板 的 角度 介绍 了 
服务 的 生命 周期 ， 该 模板 是 在 服务 提供 阶段 由 云 服务 提供 商 创建 的 。 

为 了 采用 TOSCA ， 业 界 已 经 做 出 了 巨大 的 努力 。 在 这 方面 有 一 个 开源 项 目 ， 被 称 为 OpenTOSCA。 
从 作者 的 角度 来 看 ，OpenTOSCA 生态 体系 的 命名 规则 似乎 源 自 于 酿酒 : 除了 TOSCA 的 运行 时 环境 
“OpenTOSCA 容 需 ”， 它 还 提供 了 一 个 名 为 Winery 的 图 形 建 模 工具 和 一 个 名 为 Vinothek 的 容器 中 可 用 应 
用 程序 的 自助 服务 门户 。 

正如 前 面 提 到 的 ， 人 们 在 实现 OpenStack 与 TOSCA 的 交互 中 完成 了 相当 多 的 工作 。TOSCA 还 是 一 
个 正在 人 饶 究 的 课题 。 其 中 一 个 项 目 是 定义 一 套 策略 框架 ， 将 其 作为 一 个 重要 的 示例 ， 用 于 指定 安全 策 
略 。 云 服务 认证 是 其 中 的 一 个 主要 的 驱动 因素 (例如 ， 本 附录 参考 文献 [6] 中 解决 的 问题 )。 一 旦 认 
证 ， 服 务 即 保持 不 变 。 因 此 ， 需 要 在 正式 的 服务 描述 中 得 到 认证 要 求 。 

需要 注意 的 是 , “TOSCA 缺少 有 关 如 何 应 用 、 设 计 和 实现 策略 方面 的 详细 描述 ”” ， 本 附录 参考 文 
献 [7] 演示 了 如 何 来 定义 安全 策略 。 这 篇 论文 考虑 了 两 种 方法 。 第 一 种 方法 是 基于 计划 的 ， 因 此 需要 
修改 构建 、 管 理 和 终止 计划 中 的 工作 流 ， 以 支持 标注 的 策略 。 第 二 种 方法 不 涉及 任何 计划 的 修改 ; 相 
反 ， 需 要 修改 相关 的 操作 。 

但 是 ,在 研究 的 进行 中 ，OpenTOSCA 已 经 在 生产 中 成 功 应 用 。 如 本 附录 参考 文献 [8] ME, WE 
用 OpenTOSCA 和 OpenStack 的 企业 内 容 管 理 (Enterprise Content Management, ECM) 系统 的 设计 、 规 范 
RS “Tae MS 项 H NEEE e 
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本 附录 参考 文献 [9] 介绍 了 REST 架构 风格 的 概念 ， 同 时 在 Roy Fielding 博士 论文 ”中 的 第 5 章 
也 对 这 一 概念 进行 了 阐述 。Fielding 博士 致力 于 HTTP 的 设计 、 规 范 和 实现 ， 尽 管 Fielding 博士 在 其 合作 
制定 的 HTTP 规范 中 已 经 强调 了 “REST 是 一 种 风格 ， 完 全 是 协议 无 关 的 。 黑 认 情 况 下 也 不 是 基于 HT- 
TP 的 API REST” ,但 是 行业 内 仍 固执 地 认为 REST 是 “基于 HTTP 的 。 

正如 本 附录 参考 文献 [9] 指出 的 ,“REST 是 一 组 架构 约束 ， 目 标 是 最 小 化 延迟 和 网 络 通信 ， 同 时 


O 当然， 目前 TOSCA 标准 的 版 本 确实 可 以 让 我 们 制定 策略 ， 但 是 如 本 附录 参考 文献 [7] 所 述 ， 这 些 规 范 仅仅 是 注释 ， 
策略 定义 和 处 理 的 各 个 方面 都 可 以 解释 。 
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最 大 化 组 件 实现 的 独立 性 和 可 扩展 性 。REST 实现 了 交互 的 缓存 和 复 用 、 组 件 的 动态 可 扩展 性 ， 以 及 中 
间 件 对 动作 的 处 理 ， 从 而 满足 了 互联 网 规模 分 布 式 超 媒体 系统 的 需求 ”。 

这 里 的 “缓存 ”和 “中 间 件 ”是 万 维 网 中 的 典型 架构 实体 ， 为 了 讨论 REST， 需 要 回顾 万 维 网 的 体 
系 结构 。 我 们 将 会 看 到 ， 理 解 这 种 风格 的 关键 在 于 这 种 表述 最 后 几 个 字 : “分 布 式 超 媒 体系 统 "。 在 下 
一 节 中 将 回顾 后 一 个 概念 ; 后 两 小 节 简 要 介绍 了 万 维 网 架构 的 各 个 方面 ， 并 概述 了 REST 风格 。 


A.3.1 超 媒体 的 起 源 与 发 展 ++ 者 

超 媒体 这 个 词 在 这 里 指 的 是 音 视频 参考 系统 。 在 语法 上 ， 超 媒体 是 超 文本 ， 因 为 实际 链接 是 ASCII 
编码 的 。1945 年 ，Vannevar Bush 教授 在 其 著名 的 文章 ”中 就 表述 了 早期 版 本 的 超 媒 体 概 念 : 

“可 以 想像 出 一 个 未 来 人 人 都 会 使 用 的 设备 ， 它 是 一 种 机 械 化 的 私人 文件 和 库 。 需 要 给 它 取 个 名 
字 ， 就 叫 memex IE, memex 是 一 种 个 人 存储 他 所 有 的 书籍 、 记 录 和 通信 的 设备 ， 通 过 机 械 化 实现 了 惊 
人 的 处 理 速度 和 灵活 性 。 这 是 对 它 内 存 的 一 个 巨大 的 补充 ”。 

设想 的 实现 方法 (以 这 种 形式 未 实现 ) 是 使 用 微缩 胶卷 作为 “各 种 书籍 、 图 像 、 当 前 期 刊 和 报 
纸 ” 的 存储 介质 。 这 些 将 根据 在 打字 机 键盘 上 输入 的 代码 进行 机 械 的 索引 和 搜索 ， 并 投影 到 屏幕 上 。 
超 文 本 的 关键 概念 一 一 关联 链接 是 该 愿景 的 一 部 分 :“ 它 直接 提供 了 到 关联 索引 的 方法 ， 其 基本 思想 是 
任何 条 目 可 以 随意 选取 ， 并 且 可 以 自动 地 引用 其 他 条 目 ”。 

1965 年 ，Theodor Holm Nelson 在 其 论文 “中 开始 从 事 基 于 计算 机 ”实现 Bush 概念 的 工作 。 本 附录 
参考 文献 [12] 中 引入 的 “ 超 文 本 ”术语 ,， “意思 是 以 一 种 复杂 方式 相互 交叉 的 书写 或 图 像 材 料 的 整 
体 ， 不 能 方便 地 在 之 上 呈现 或 表现 出 来 ” 。 同 样 的 ,“ 胶 片 、 音 频 和 视频 ”它们 “可 以 以 非 线性 系统 的 
形式 进行 组 织 ， 例如 格子 ， 用 于 编辑 的 目的 或 用 于 显示 不 同 的 重点 ”。 与 “ 超 文本 ”一 起 出 现 的 是 
“ 超 电 影 ” 这 个 词 ， 表 示 一 种 “可 浏览 或 可 变化 顺序 的 电影 ”， 它 是 “唯一 的 一 种 超 媒 体 ， 需 要 引起 我 
们 注意 ”。 

当然 ， 这 篇 论文 的 意义 远 比 仅仅 定义 这 些 术 语 要 深远 得 多 ， 它 提供 了 信息 结构 、 文 件 结构 ， 甚 至 
用 来 表示 这 种 文件 格式 的 语言 ” 。 

与 此 同时 ， 宾 夕 法 尼 亚 大 学 的 两 位 教授 Noah Prywes ( 算 上 这 次 , 已 经 第 三 次 提 到 他 了 ) 和 Harry 
J. Gray 曾经 一 直 从 事 于 多 列表 (Multi - List) 系统 的 构建 工作 ， 并 将 其 在 1959 年 的 论文 “中 进行 了 概 
述 ， 本 附录 参考 文献 [16] 对 这 一 内 容 给 出 了 进一步 的 介绍 ， 人 们 预想 它 可 以 通过 基于 软件 的 关联 存 
储 器 实现 来 文 持 库 函数 自动 化 ， 其 中 所 提 及 的 内 存 以 链表 结构 进行 组 织 。 本 附录 参考 文献 [17]」 报道 
指出 ， 计 算 机 图 形 学 领域 的 先驱 者 Andries van Dam 在 其 宾夕法尼亚 大 学 的 博士 研究 中 曾经 使 用 过 多 列 
表 。1966 年 ， 他 以 博士 论文 “图 像 数 据 的 数字 处 理 研 究 ” 进 行 答 辩 ， 获 得 了 他 第 二 个 计算 机 科学 博士 
学 位 。 

之 后 ，Nelson 和 van Dam 与 美国 布朗 大 学 的 学 生 团队 一 起 ,联手 在 IBM 360'™) 上 开发 了 超 文本 编辑 
系统 (Hypertext Editing System，HES)。 这 个 项 目 后 来 成 为 了 一 个 更 高 级 的 项 目 , 但 是 这 里 我 们 知道 ， 
超 文 本 处 理 的 主要 要 素 已 经 存在 。 该 项 目 涉 及 了 多 用 户 访 问 (不 仅 用 于 读 取 , :还 可 用 于 修改 文件 )。 计 
算 机 终端 上 显示 的 文本 可 以 一 文 光 笔 ( 鼠标 的 前 映 ) 进行 选择 、 标 记 和 注释 。 在 验证 超 文本 思想 的 基 
mik, HES 表明 线性 编辑 (顺便 提 一 下 ， 即 使 在 20 年 后 ， 它 也 仍然 会 存在 ) 可 以 用 全 屏幕 编辑 与 格式 
DEAT FAR. 

快速 跳 到 1980 Æ, Timothy Berners - Lee 先生 在 CERN 开发 了 基于 超 文本 的 系统 ENQUIRE。 到 1989 
年 ， 他 使 用 了 一 种 不 同 的 设计 ， 将 超 文 本 技术 与 互联 网 结合 在 一 起 ， 建立 了 第 一 个 网 站 ; 最 后 到 1990 
年 ， 他 发 布 了 第 一 款 Web N HAr, WERI WorldWideWeb。 

这 种 架构 的 超 媒体 组 件 称 为 资源 〈 最 初 是 由 文件 表示 的 一 种 文档 ， 但 是 后 来 演变 为 由 程序 运行 产 
生 的 结果 ) 。 之 前 提 到 的 通用 资源 命名 方案 ， 可 以 让 我 们 通过 DNS 查找 的 方式 查询 服务 器 上 的 资源 。 客 
户 端 设备 上 的 浏览 硕 能 够 解释 使 用 超 文 本 标记 语言 (Hypert — Text Markup Language, HTML) 编写 的 网 


O 这 篇 论文 的 一 个 亮点 是 ， 它 准确 地 预测 了 计算 机 将 成 为 一 种 用 户 友好 的 且 成 本 低廉 的 书写 和 研究 工具 。 
O 有 趣 的 是 ,大约 在 同一 时 间 ，Vladimir Nabokov (他 不 是 一 个 计算 机 科学 家 ， 而 是 一 个 畅销 作家 ) 出 版 了 一 部 小 说 
(Pale Fire (苍白 的 火 )》21， 这 部 小 说 使 用 超 文 本 书写 ， 如 本 附录 参考 文献 【14] 所 示 。 
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页 ， 并 且 获 取 相 应 的 资源 ”。 

资源 被 分 配 了 RFC 3986 中 定义 的 统一 资源 标识 符 (Universal Resource Identifier, URI), URI 可 以 
是 统一 资源 名 称 (Universal Resource Name，URN) ， 该 名 称 对 资源 进行 了 唯一 标识 ,但 没有 指定 资源 的 
位 置 。 或 者 ，URI 也 可 以 是 统一 资源 定位 符 ( Universal Resource Locator, URL), 该 定位 符 实际 上 指定 
了 资源 的 位 置 。 其 中 ， 这 里 的 “或 者 ”不 是 排他 的 : URI 可 以 是 URN 和 URL, 

URI 只 是 一 个 标识 符 ， 它 不 必 被 用 来 指定 一 个 可 访问 的 资源 。 与 UR 引用 相关 联 的 操作 由 协议 和 相 
应 的 元 数据 定义 。RFC 3986 强调 ， 系 统 对 资源 执行 的 典型 操作 包括 访问 、 更 新 、 蔡 换 或 查找 属性 ， 这 
些 操作 由 使 用 URI 的 协议 定义 。 

URI 语法 的 正式 定义 如 下 : 

URI = <scheme> “:” <hier-part> ["“?” <query>] [“#” <fragment>]. 

其 中 的 scheme 通常 是 相关 的 协议 (如 HTTP, ftp://ftp.ietf.org/rfc/rfc3986 
mailto 或 SP)， 但 它 也 可 以 仅仅 是 一 个 字符 串 http://www. ietf.org/rfc/rfc3986.txt 
URN, ， 这 意味 着 URI 是 一 个 URN。 <hier- part > ldap:W[2001:db8::7]/c=GB?objectClass?one 

mailto:Cloud.Administrator@example.com 
Baw Us 所 在 主 P 的 DNS 名 称 、 要 使 用 的 端口 eh A 
(这 是 可 选 的 ， 默 认为 80) ， 以 及 资源 的 路 径 ( 仿 | fe 
效 UNIX 文件 系统 ) 。 其 余部 分 是 可 选 的 搜索 部 分 。 telnet://192.0.2.16:80/ 
图 A. 12 列举 了 几 个 URI 的 示例 (需要 注意 的 是 ， urn:oasis:names:specification:docbook:dtd:xml:4.1.2 
SAE MENTAT 因而 重重 且 且 生 利生 生生 
这 里 还 有 一 个 例子 说 明了 UR 字符 串 中 的 搜索 部 分 的 用 途 。 当 使 用 Google 搜索 an example of URL 
时 ， 浏 览 右 会 显示 下 面 的 URI， 绪 果 如 下 : 
https://www.google.com/webhp?sourceid=chrome-instant&ion=1 &espy=2&ie=UTF-8#q= 
an%20example%200f%20url. 

这 个 例子 不 仅 突 出 了 网 络 超 媒体 实现 的 灵活 性 ， 而 且 还 演示 了 URI 是 如 何 存储 和 “驱动 ”应 用 程 
序 状态 的 。 

后 者 是 REST 染 构 风格 的 主要 和 守则 ， 稍 后 将 继续 介绍 这 方面 的 内 容 。 从 本 附录 参考 文献 [9] 中 可 
以 看 到 :“ 超 媒体 因为 它 的 简单 性 和 通用 性 ， 被 选 作 用 户 界面 : 无 论 什么 样 的 信息 源 ， 都 可 以 使 用 相同 
的 界面 ， 超 媒体 关系 (链接 ) 的 灵活 性 允许 无 限 的 结构 化 ， 并 且 对 链接 的 直接 操作 允许 信息 内 的 复杂 
关系 通过 应 用 程序 来 引导 读者 。 由 于 大 型 数据 库 中 的 信息 通常 通过 搜索 界面 而 不 是 浏览 右 更 容易 进行 
访问 ， 因 此 Web 还 通过 向 服务 提供 用 户 输入 数据 并 将 结果 以 超 媒 体 的 形式 进行 呈现 的 方法 , 来 纳入 执 
行 简单 查询 的 能 力 ”。 

规定 网 页 结构 使 用 超 文本 标记 语言 (HIML) ， 在 这 种 网 页 结构 中 还 提供 了 相关 资源 的 表示 。W3C 
完成 了 HTML 的 标准 化 工作 ，W3C 是 由 Berners - Lee 先生 成 立 和 领导 的 组 织 。 最 新 的 版 本 HTML 5.0 可 
以 文 持 本 地 (而 不 是 基于 插件 的 ) 音频 和 人 视频、 浏览 带 存 储 和 在 线 矢量 图 形 。 

元 数据 是 资源 表示 的 一 部 分 (例如 ,媒体 类 型 或 最 后 修改 的 时 间 )。 还 有 一 种 数据 组 件 是 控制 数 
据 ， 下 一 节 回 顾 并 介绍 数据 缓存 时 ， 控 制 数 据 的 目的 将 变 得 清晰 明日 。 





A.3.2 万 维 网 架构 要 品 k*t 





从 一 开始 ，Web 设计 就 考虑 了 降低 市 宽 的 使 用 率 (这 也 意味 着 更 快 地 访问 资源 ， 并 且 在 很 多 情况 
F, 它 还 意味 着 减少 网 络 费 用 ) 。 在 分 布 式 环境 中 ， 这 可 以 通过 一 种 有 效 的 方法 ， 即 在 一 个 或 多 个 高 速 
缓存 中 复制 数据 来 实现 。 数 据 的 缓存 从 客户 端 开 始 ， 网 页 一 旦 被 获取 ， 就 可 以 被 浏览 右 存 储 起 来 ， 进 
一 步 的 复制 由 代理 执行 。 

图 A. 13 举例 说 明了 企业 、 网 络 提 供 商 、 服 务 提 供 商 部 署 的 代理 情况 〈 应 当 注 意 到 ， 部 署 的 代理 不 
仅 可 以 为 缓存 提供 物理 存储 ， 还 可 以 实现 内 容 过 滤 、 协 议 转换 、 收 集 分 析 和 终端 用 户 匿名 性 等 今天 在 


名 ”当然 ， 客 户 端 不 一 定 是 浏览 器 ， 它 是 通 向 人 类 用 户 的 网 关 。 而 用 户 可 以 是 一 个 自动 机 (进程 或 线程 ) ， 它 是 调用 相关 
API 的 地 方 。 但 是 ， 现 代 浏 览 器 (如 Chrome) 一 般 都 支持 基于 API 的 编程 接口 。 
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万 维 网 使 用 中 的 所 有 重要 功能 。 曝 无 疑问 ， 伴 随 春 这 些 功 能 一 并 出 现 的 还 有 一 些 众所周知 的 缺点 ， 即 


这 些 功 能 被 滥用 导致 的 问题 )。 
Fe iz 服务 提供 商 代理 远程 服务 中 


= 网 络 提供 商 代理 





Ba 本 地 (浏览 器 ) 缓 存 
TS wee 
C] 网 络 提供 商 缓存 


BE 。 服务 提供 商 缓存 





ea HAD BRAAF GD EIA Caer eS 

在 极端 情况 下 ， 当 服务 器 关闭 时 ， 缓存 仍然 可 以 提供 其 服务 ， 从 终端 用 户 的 角度 来 看 ， 这 种 情况 
类 似 于 观察 一 颗 变 暗 的 明星 发 出 的 光 。 

由 于 使 用 缓存 的 端点 (客户 端 或 代理 ) 必须 知道 缓存 是 否 有 效 〈 即 包含 与 服务 器 所 含 的 相同 的 信 
息 ) ， 所 以 缓存 的 存在 必然 限制 了 部 署 在 这 种 架构 中 的 协议 使 用 。 

一 个 限制 源 于 网 页 的 动态 性 质 。 最 终 的 HTML 文档 不 必 存 储 在 服务 器 上 ， 它 可 以 在 服务 器 端 ， 
也 可 以 在 客户 端 ， 或 者 在 两 者 之 上 同时 动态 地 创建 ， 其 中 客户 端 和 服务 器 端 分 别 创建 其 各 自 的 部 分 。 

为 了 说 明 万 维 网 的 工作 原理 ， 有 必要 强调 它 最 原始 的 协议 ， 即 RFC 2616 中 定义 的 HTTP, HTTP 运 
行 在 TCP 上 (目前 使 用 持久 连接 ) ， 因 此 它 具 有 “可 靠 的 管道 "2”。HTTP 是 一 种 请 求 / 响 应 协议 ， 其 请 
求 由 客户 端 发 出 ， 服 务 器 返回 响应 。 

所 有 的 HTTP 消息 均 经 过 ASCII 编码 。 消 息 首部 实际 上 是 纯 ASCH 文本 ， 而 消息 体 可 以 包含 ASC 
编码 的 二 进 制 数据 。 

HTTP 一 直 致力 于 实现 面向 对 象 的 范式 。 因 此 ， 它 定义 了 一 组 方法 列表 8， 这 些 方法 作用 于 请 求 
URI 标识 的 资源 : 

1) GET， 获 取 资 源 表示 。 

2) HEAD， 只 获取 HTTP 首部 (通常 用 于 检查 与 资源 相关 联 的 元 数据 )。 

3) POST， 请 求 源 服务 器 接受 将 封装 在 请 求 中 的 实体 作为 新 的 资源 附属 ( 稍 后 将 介绍 一 个 相关 的 
解释 示例 ) 。 

4) PATCH ， 部 分 修改 资源 的 表示 。 

5) DELETE ， 请 求 删 除 资源 。 

6) OPTIONS ， 请 求 与 资源 相关 联 的 请 求 / 啊 应 链 上 可 用 的 通信 选项 相关 信息 。 

7) TRACE， 启 动 原 始 消息 的 回 送 。 

8) CONNECT， 请 求 连 接 到 可 以 作为 隧道 的 代理 。 

使 用 几 组 预 留 的 代码 对 响应 结果 进行 分 组 : 

1) 100 ~199: 信息 。 

2) 200 ~299: 成 功 并 携带 数据 (如果 存在 数据 )。 

3) 300 ~399: 重 定向 。 


O ”这 样 的 管道 无 法 提供 保密 、 非 重 放 或 完整 性 的 服务 。 这 样 的 服务 以 及 服务 器 认证 可 以 通过 在 RPC 5246 中 标准 化 的 传输 
层 安 全 (Transport Layer Security, TLS) 协议 之 上 运行 HTTP 来 实现 。TLS 运行 在 TCP 之 上 ,并 在 客户 端 和 服务 器 端 之 间 
提供 一 种 安全 通道 。 本 身 ，HTTP 就 可 支持 客户 端 认证 的 机 制 。 

O ”允许 新 方法 的 扩展 名 。 

O 这 种 方法 ， 即 2010 年 完成 的 一 种 扩展 标准 化 ， 发 布 在 RFC 5789 中 。 
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4) 400 ~499: 客户 端 报错 (还 可 用 于 请 求 认证 ， 如 401， 伴 随 着 对 客户 端 身份 的 质疑 ) 。 

5) 500 ~599; 服务 器 报错 。 

这 些 响应 码 大 部 分 的 含义 都 比较 简单 ， 但 其 中 有 两 类 相对 比较 复杂 。 第 一 个 ， 重 定向 是 一 个 强大 
(并 且 也 是 存在 潜在 安全 隐患 ) 的 功能 ， 顾 名 思 义 ， 该 功能 用 于 指示 客户 端 访问 另 一 个 服务 以 获取 信 
息 。 其 中 的 处 理 可 能 很 复杂 ， 例 如 ， 必 须 避 免 死 循环 ， 在 某 些 情况 下 ， 浏 览 器 本 上身 无 法 决定 是 否 人 允许 
重 定 向 。 然 而 ， 重 定向 可 以 作为 构建 服务 的 工具 。 将 在 本 章 最 后 一 节 中 看 到 ， 基 于 HTTP 的 API 系统 地 
使 用 了 重 定 向 来 实现 基于 令 牌 的 身份 认证 管理 方案 ， 例 如 ， 开 放 授 权 (Open Authorization, OAuth) H 
议 中 使 用 的 身份 认证 管理 方案 。 

第 二 个 ， 客 户 端 报错 ， 不 能 用 来 指示 错误 ， 而 是 要 求 额 外 的 处 理 。 例 如 ，401 啊 应 用 来 请 求 对 客户 
端的 认证 ， 向 客户 端 提供 了 一 个 质疑 ， 由 客户 端 进行 回答 以 证 明 自 己 的 身份 。 类 似 地 ， 从 代理 的 角度 
来 看 ，407 响应 调用 了 相同 的 过 程 ， 除 了 客户 端 必 须 面 向 代理 进行 身份 认证 。 

前 面 提 到 的 CONNECT 暗示 了 HTTP 可 以 感知 到 代理 的 存在 ， 有 关 这 一 方面 还 有 更 多 的 内 容 。 组 存 处 
理 的 细微 差别 体现 在 首部 中 。 关 键 信息 元 素 (通常 ) 包含 给 定 页 面 的 哈 希 值 ， 这 样 的 元 素 被 称 为 实体 标 
签 (Entity Tag，ETag) ， 因 为 它 被 用 作 页 面 内 容 的 标签 。ETag 可 用 于 检查 缓存 的 新 鲜 度 。 当 首次 (通过 
GET 方法 ) 获取 资源 表示 结果 时 ， 其 ETa 将 与 缓存 的 表示 结果 一 起 存储 。 随 后 的 GET 请 求 携带 带 有 if - 
none — match 的 请 求 首 部 字段 ， 设 置 请 求 条 件 : 如 果 页 面 是 新 的 〈 即 它 的 哈 希 值 与 ETag 中 包含 的 哈 希 值 相 
同 ) ， 则 不 需要 再 传送 这 个 页 面 。 通 过 PUT 使 用 相同 的 机 制 ， 可 以 防止 客户 端 不 了 解 的 页 面 被 算 改 。 

保持 时 间 值 也 有 助 于 验证 新 鲜 度 。 返 回响 应 中 携带 的 最 后 修改 的 实体 首部 字段 记录 了 页 面 被 修改 
的 日 期 和 时 间 。 客 户 端 可 以 在 让 - modified - since 首部 中 使 用 具有 相同 值 的 条 件 GET。 启 用 条 件 处 理 的 
数据 元 素 在 本 附录 参考 文献 [9] 中 被 称 为 控制 数据 。 


A.3.3 REST 原理 
这 些 原理 适用 于 在 Web 架构 存在 的 情况 下 对 服务 进行 编程 的 做 法 。 首 先 ， 不 可 能 指定 浏览 右 实 现 ， 





因此 客户 端 关注 的 问题 必须 和 服务 器 关注 的 问题 分 开 一 一 不 应 该 由 客户 端 到 服务 器 的 接口 绑 定 。 这 于 
RPC 方法 截然 不 同 ， 在 RPC 中 这 样 的 绑 定 是 被 明确 指定 的 。 

考虑 到 Web 服务 的 规模 ， 服 务 器 无 法 为 每 个 客户 端 保 持 应 用 程序 的 状态 ， 服 务 器 必须 是 无 状态 的 
( 另 一 个 原因 是 ， 服 务 器 可 能 被 复制 ， 通 过 服务 器 实例 实现 负载 均衡 ) 。 因 此 ， 从 客户 端 到 服务 器 的 每 
个 请 求 都 应 该 包含 服务 器 理解 请 求 所 需 的 所 有 信息 。 

对 于 REST 来 说 ， 不 是 每 个 提供 状态 相关 信息 的 机 制 都 可 以 接受 。HTTP 中 有 一 个 众所周知 的 机 制 ， 
称 为 cookie， 在 RFC 6265 中 有 相应 的 规定 。cookie 是 一 种 描述 客户 端 状 态 的 数据 结构 ， 服 务 器 放置 一 
个 cookie 用 来 对 客户 端的 初始 请 求 进行 响应 ， 之 后 将 在 所 有 后 续 的 交互 中 交换 〈 并 可 能 被 服务 化 更 新 ) 
这 一 cookie, DHE cookie 保持 客户 端的 状态 。 这 种 方法 不 符合 REST 风格 ， 它 规定 了 通过 超 媒体 (URI) 
驱动 应 用 程序 状态 转换 的 方法 。 实 际 上 ， 本 附录 参考 文献 [10] 在 其 第 6.3.4.2 节 中 对 此 给 出 了 一 个 
鲜明 的 例外 ， 注 意 到 与 用 户 备 份 的 冲突 (如 在 浏览 器 中 单 击 “ 后 退 ” 按 钮 ),， “备份 到 cookie 之 前 的 视 
图 ,浏览 需 的 应 用 程序 状态 不 再 与 cookie 中 表示 的 存储 状态 相 匹 配 。 因 此 ， 发 送 到 同一 个 服务 做 的 下 
一 个 请 求 将 包含 一 个 会 误导 当前 应 用 程序 上 下 文 的 cookie， 导 致 双方 发 生 混 消 ”。 

在 有 中 间 件 和 缓存 的 情况 下 , 应当 取消 额外 的 交互 ， 以 便 最 贴近 客户 端的 正确 缓存 可 以 啊 应 并 消 
除 进一步 的 请 求 传播 。 为 了 实现 这 一 点 ， 来 自 服务 器 响应 中 的 所 有 数据 ， 应 当 被 标记 为 可 缓存 的 或 不 
可 缓存 的 。 

客户 端 与 服务 器 之 间 的 接口 受到 以 下 限制 : 资源 的 识别 ， 通 过 其 各 自 的 表示 对 资源 进行 处 理 操作 ， 
自我 描述 消息 ”， 以 及 将 超 媒 体 作为 状态 转换 的 手段 ”。 

REST 风格 还 规定 了 分 层 结构 (封装 传统 服务 ， 并 保护 来 自传 统 客户 端的 新 服务 ”) 和 按 需 代码 的 
使 用 ， 即 代码 可 以 通过 超 媒 体 方式 被 带 到 客户 端 上 执行 。 

日 ”为 散 列 ， 也 可 称 为 险 希 ， 本 书 通 用 “了 哈 希 ”一 词 。 

O Rimi, RARER A PEE (ARE) 所 理解 。 

O 本 附录 参考 文献 [10] (第 5.1.5 节 ) 描述 了 这 种 约束 :“ 超 媒体 作为 应 用 程序 状态 的 引擎 ”。 

B 例如， 对 于 这 种 方案 ， 使 用 基于 Web 的 电子 邮件 服务 ，SMTP 邮件 服务 协议 被 封装 在 Web 用 户 不 可 见 的 层 中 。 
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REST 风格 规定 了 固定 资源 名 称 或 层次 结构 的 定义 〈 事 实 上 ， 任 何 “类 型 化 归 类 ”的 资源 其 中 的 类 
型 都 需要 被 客户 端 所 理解 ) ; 构建 恰当 URI 的 指令 必须 来 自 于 服务 器 ， 就 像 HTML 表单 或 URI 模板 一 
样 。 实 际 上 ， 这 是 为 了 蔡 止 对 任何 具体 协议 的 依赖 。 

最 后 一 点 经 党 被 误解 。 在 Fielding 的 博客 中 ， 他 强调 REST API 必须 以 协议 无 关 的 方式 定义 。 实 际 
E, HTTP 不 是 唯一 的 Web 应 用 协议 。 如 前 所 述 ，IETF 认识 到 了 单一 事务 请 求 /响应 协议 存在 的 不 足 
[ 它 不 能 支持 诸如 通知 的 异步 “ 啊 应 "， 因 此 需要 昂贵 〈 在 计算 资源 占用 方面 ) HAEA e AAL], 
因此 制定 并 标准 化 了 一 种 称 为 WebSocket 的 新 型 全 双 工 协议 。 

通过 一 个 例子 来 结束 这 一 节 的 内 容 ， 这 个 例子 演示 了 超 媒 体 是 如 何 驱动 服务 状态 的 。 为 了 让 这 个 
例子 变 得 更 为 具体 ， 明 确 使 用 HTTP， 同 时 演示 REDIRECT 方法 的 功能 。 

这 里 考虑 一 个 简单 但 相当 典型 的 服务 ， 即 用 户 订购 一 些 可 以 获得 回执 的 商品 。 用 户 请 求 由 URI X 
表示 的 商品 ， 得 到 一 个 表单 作为 响应 ， 填 写 表单 并 提交 。 

如 果 该 服务 是 按照 图 A. 14a 来 实现 的 ， 其 中 通过 GET X 获取 表单 并 通过 POST X 将 表单 返回 给 服务 
舌 ， 此 时 应 用 程序 将 处 于 暂 态 状态 。 而 这 时 浏览 属 可 能 会 转 到 其 他 页 面 的 显示 上 ， 这 样 用 户 将 永远 无 
法 通过 备份 返回 到 之 前 页 面 的 接收 状态 。 不 能 确定 表单 提交 是 否 成 功 ， 或 者 无 法 获取 表单 提交 回 
执 一 一 用 户 可 能 会 再 次 执行 相同 的 步骤 ， 从 而 再 提交 一 次 表单 〈《 所 以 ， 用 户 可 能 会 文 付 两 次 ， 得 到 两 
个 相同 的 商品 ， 而 用 户 只 需要 一 个 )。 

图 A. 14b 描述 了 夯 一 种 实现 方法 ， 该 实现 方法 解决 了 这 个 问题 。 这 里 POST 将 后 级 y 附加 到 X 上 ， 
从 而 创建 了 一 个 附属 资源 X/y。 响 应 将 用 户 重 定向 到 X/y， 这 表示 一 种 新 的 持久 状态 ， 因 此 所 有 后 续 的 
GET X/y 都 将 返回 这 一 回执 。 


| GET X 
GET X/ 表 单传 输 (表单 传输 ) 


GET X/y 
POST X/ 表 单 提交 POST X/y/( ge PAGE 22) 


重 定向 X/y 
GET X/y( 页 面 传输 ) 


本 节 将 进一步 介绍 第 7 章 引 入 的 身份 与 访问 管 
先 介绍 密码 管理 ， 之 后 介绍 Kerberos ( 刁 份 验证 ) ， 它 被 广泛 应 用 于 企业 中 的 认证 。 事 实 上 Kerberos 
是 一 个 具有 良好 定义 架构 和 通信 协议 的 完整 系统 。 它 通过 设计 支持 相互 认证 和 单 点 登录 。 介 绍 了 Ker- 
beros 内 容 之 后 ， 将 回 到 访问 控制 的 内 容 上 来 。 我 们 首先 回顾 一 下 实现 访问 控制 矩阵 的 两 种 常用 方法 : 
按照 列 和 行将 信息 存储 在 非 空 单 元 格 中 。 列 方法 产生 访问 控制 列表 ， 而 行 方法 产生 能 力 列表 。 接 下 来 ， 
对 Bell - LaPadula 模型 (高 级 访问 控制 技术 的 基础 ) 进行 回顾 。 之 后 ， 将 对 处 理 身份 联盟 的 一 些 技术 ， 
例如 安全 声明 标记 语言 (Security Assertion Markup Language, SAML) , OAuth 2. 0 和 OpenID Connect 进行 
讨论 。 最 后 ， 将 论述 文 持 基于 策略 访问 控制 的 可 扩展 访问 控制 标记 语言 (Extensible Access Control 
Markup Language，XACML) 。 基 于 SAML，XACML 旨 在 规定 访问 控制 策略 和 查询 方面 的 规范 。 
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附录 A_ 精 选 专 ufo) 


A.4.1 密码 管理 





使 用 密码 进行 认证 是 有 问题 的 ， 部 分 原因 在 于 内 存 方面 存在 的 限制 。 最 好 的 做 法 要 求 密码 的 长 度 
足够 长 (例如 ， 长度 超过 10 个 字符 )， 包含 非 字母 数字 字符 ， 看 起 来 似乎 没有 意义 并 且 做 到 定期 更 改 
等 。 但 是 ， 这 种 被 认为 足够 强大 的 密码 是 难以 记 住 的 。 随 着 云 服 务 的 发 展 ， 这 种 情况 只 会 逐渐 恶化 。 
不 止 一 个 密码 ， 每 个 人 都 会 有 很 多 密码 ， 无 法 记得 它们 。 过 去 ， 忘 记 密 码 时 ， 用 户 可 以 呼叫 客户 支持 
中 心 。 现 在 ， 用 户 可 以 通过 在 预先 注册 的 电子 邮件 地 址 中 收 到 的 Web 链接 重 置 密码 ”。 鉴 于 端 到 端 电 
子 邮 件 的 漏洞 ， 密 码 重 置 步 又 可 能 包括 辅助 认证 的 形式 ， 但 是 这 会 不 可 避免 地 带 来 额外 的 副作用 。 通 
常 ， 辅 助 认证 是 基于 之 前 用 户 对 一 系列 可 选 问题 给 出 的 答案 实现 的 。“ 你 母亲 姓 什 么 ?”” 是 一 个 标准 的 
问题 。 一 般 来 说 ， 这 些 问题 是 与 用 户 有 关 的 一 些 稼 识 。 这 就 出 现 了 一 个 困境 ， 一 方面 ， 为 了 最 大 限度 
地 提高 用 户 记 住 答 案 的 可 能 性 ， 而 不 需要 把 它们 写 下 来 ， 所 以 只 有 真实 的 〈 或 简单 的 ) 答案 应 当 被 提 
供给 系统 。 男 一 方面 ， 在 Google 时 代 这 样 的 答案 往往 很 容易 被 别人 知道 。 这 种 困境 可 以 通过 让 用 户 目 
己 定制 安全 问题 从 而 实现 其 答案 的 鲜 为 人 知性 来 轻松 解决 。 例 如 ， 如 果 用 户 在 高 中 时 有 一 位 外 号 为 
“ 乌 包 ”的 地 理 老师 ， 那 么 用 户 可 以 设置 问题 为 “乌龟 教 什 么 ?”。 此 外 ,还 可 以 增加 安全 问题 的 数量 。 
总 的 来 说 ， 安 全 问题 的 答案 基本 上 是 男 一 个 秘密 。 这 个 秘密 是 相对 长 期 的 ， 实际 上 也 需要 得 到 相应 的 
保护 。 

在 密码 方面 ， 还 有 一 个 主要 问题 与 如 何 将 它们 存储 在 认证 系统 中 有 关 。 以 明文 形式 保存 进行 正常 
的 访问 控制 显然 是 不 够 的 。 进 入 身份 认证 系统 的 攻击 者 可 以 轻松 守 取 存储 的 密码 并 冒充 用 户 。 而 且 ， 
对 存储 密码 有 合法 访问 权限 的 系统 管理 员 也 可 能 会 有 不 当 的 行为 。 标 准 做 法 是 将 密码 进行 哈 布 加 密 ， 
并 仅 存 储 哈 硕 值 。 哈 布 加 密 是 单身 实现 的 ， 但 这 种 表述 不 是 正式 定义 的 概念 。 党 统 来 说 ， 如 宁 一 个 郴 
数 有 H(p) 是 单 向 的 ， 那么 它 必 须 具有 人 能够 从 p“ 很 容易 地 ”计算 出 H(p)， 且 从 等 式 H(p) =Q “SERA 
难 地 ” 解 出 p 的 属性 。 即 使 知道 一 种 这 样 的 解法 ， 找 到 男 一 个 解法 仍然 是 “非常 困难 的 ”"。 当 然 ,，“ 容 
易 ” 和 “困难 ”的 描述 并 不 准确 。 它 们 所 指 的 是 计算 复杂 性 。 如 果 可 以 计算 得 很 快 ( 例 如， 在 几 秒 钟 
之 内 ) ， 那 么 它 是 “容易 的 ”， 但 是 如 果 没 有 已 知 的 算法 可 以 用 来 计算 或 在 现代 计算 机 上 需要 耗费 1000 
年 以 上 的 时 间 进 行 计 算 ， 那 么 可 以 认为 它 是 “困难 的 ”。 

使 用 密码 哈 希 方案 ， 验 证 用 户 输入 的 密码 ， 认 证 过 程 计算 它 的 哈 希 值 ， 然 后 将 该 结果 与 存储 的 密 
码 哈 希 值 进 行 对 比 ” 。 因 此 ， 没 有 人 ， 甚 至 根本 不 可 能 查 到 用 户 密码 的 明文 ， 这 是 一 个 壮举 。 例 如 ， 窃 
取 到 加 密 的 密码 无 法 实现 相同 的 效果 ， 因 为 它 是 不 可 道 的 。 谁 都 可 以 访问 到 加 密 的 密 钥 ,无论 是 通过 
合法 的 方式 还 是 非法 的 方式 ,但 却 无 法 知道 它 所 对 应 的 加 密 之 前 的 密码 。 

Roger Needham 和 Mike Guy 被 认定 在 1963 年 发 明了 密码 哈 希 ”， 但 标准 加 密 哈 希 算法 (例如 ， 
MD5 和 SHA -256) 出 现 得 很 晚 。 一 段 时 间 以 来 ， 人 们 只 能 使 用 “自制 ”的 算法 。 一 个 这 样 的 算法 在 
Multics 中 实现 ， 并 在 后 来 的 代码 审查 期 间 被 发 现 是 有 缺陷 的 ， 这 也 证 明了 加 密 技 术 是 一 种 难度 很 大 的 
领域 ， 需 要 人 们 共同 的 智慧 。Multics 事件 的 发 生 促 使 Robert Morris 和 Ken Thompson 为 UNIX 系统 开发 
了 一 种 新 的 哈 希 函数 ”， 该 函数 最 终 在 2000 年 被 证 明 是 加 密 安全 的 ”。 

尽管 它 有 很 多 的 优点 ， 但 密码 哈 希 方案 仍 容 易 受 到 字典 攻击 。 这 种 攻击 使 用 预先 构建 的 潜在 密码 
(例如 ， 来自 牛津 英语 词典 中 的 通用 名 称 和 单词 ) 组 成 的 字典 ， 以 及 使 用 已 知 算法 计算 出 的 哈 希 值 。 字 
典 需要 时 间 来 构建 ， 但 这 只 需要 做 一 次 。 供 攻击 者 设法 获取 哈 希 密码 ， 然 后 查找 字典 中 的 哈 希 值 。 如 
果 有 匹配 ， 那 么 密码 即 被 识别 。 字 典 攻击 的 问题 很 严重 ， 因 为 总 有 人 选择 易 破 解 的 密码 ， 很 容易 通过 
字典 查找 出 来 。 

幸运 的 是 , 在 20 世纪 70 年代 贝尔 实验 室 开 发 UNIX 操作 系统 时 ，Robert Morris 和 Ken Thompson 就 
已 经 预料 到 了 这 些 攻 击 ， 并 设计 了 一 种 对 付 它们 的 技术 ”。 该 技术 依赖 于 计算 密码 的 哈 希 值 时 其 中 包 
含 的 nn 位 随机 数 ( 称 为 盐 值 )。 换 句 话 说， 执行 哈 希 计算 的 不 仅仅 是 密码 ， 而 是 密码 与 盐 值 的 连接 。 盐 


O 有 些 网 站 支持 密码 恢复 。 为 此 ， 网 站 保留 用 户 密码 ， 管 理 员 可 以 知道 它们 ， 所 以 应 该 远离 这 样 的 网 站 。 

O ”两 个 不 同 的 密码 产生 相同 的 哈 希 值 是 不 可 能 的 。 否 者 ， 就 有 存在 漏洞 的 可 能 。 这 里 有 一 个 典型 的 例子 ，Alice 发 现 她 密 
码 的 哈 希 值 与 Bob 的 相同 (通过 读 取 操作 系统 的 密码 文件 ) ， 并 可 以 使 用 自己 的 密码 以 Bob 的 身份 进行 登录 。 在 这 种 情 
况 下 ， 一 种 补救 的 方法 是 将 哈 希 密码 的 访问 限制 为 只 有 特权 用 户 才 可 以 进行 。 这 种 方案 在 UNIX 中 被 实现 为 影子 密码 。 

国人 们 已 经 证 明 ，MD5 的 防 碰撞 能 力 不 足 ， 因 此 不 推荐 使 用 。 
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值 特定 于 每 个 密码 ， 并 且 当 密码 更 改 时 ， 盐 值 也 随 之 更 改 。 盐 值 以 明文 的 形式 与 哈 硕 值 一 起 存储 。 妆 
验证 用 户 输入 的 密码 时 ， 认 证 过 程 将 查找 盐 值 ， 计 算 盐 值 与 密码 组 成 连接 的 哈 硕 值 ， 并 将 结果 与 存储 
的 值 进行 比较 。 因 此 ， 纯 密码 哈 希 字典 不 再 有 效 ， 必 须 针 对 每 个 盐 值 重新 构建 密码 字典 。 使 用 n 位 的 
盐 值 ， 意 味 着 会 有 2" 个 新 密码 字典 。 当 这 种 方法 在 UNIX 操作 系统 中 首次 引入 时 ， 选 取 的 盐 什 长 度 为 
12 位 。 如 今 ， 使 用 更 为 强大 的 处 理 器 和 更 加 便宜 的 存储 设备 ， 盐 值 的 长 度 应 该 被 设置 得 更 长 (EDR 
达到 64 位 的 长 度 ) ， 从 而 增加 预计 算 的 成 本 。 还 有 一 种 减轻 字典 攻击 的 方法 是 多 次 迭代 哈 布 操作 。 然 
而 ， 这 种 方法 对 运行 时 认证 的 性 能 有 一 一 定 的 影响 。 


A.4.2 Kerberos kkk 


IW), Kerberos 被 设计 为 可 在 分 布 式 环境 中 的 任何 工作 站 (相对 于 用 户 自己 的 机 各 ) 上 基于 用 户 
所 知 内 容 验证 用 户 的 身份 。 其 主要 目的 是 提供 在 任何 计算 机 的 用 户 和 属于 该 网 络 的 任何 指定 资源 〈 服 
务 器 ) 之 间 提 供 相 互 认证 。 鉴 于 Kerberos 内 置 的 单 点 登录 文 持 功能 ，Kerberos 一 和 耻 是 企业 界 选择 的 解决 
Fi. Kerberos 是 在 麻 省 理工 学 院 开 发 的 ”>，IETF 完成 了 它 的 标准 化 工作 。RFC 4120 中 规定 了 Kerberos 
VS 的 核心 规范 。 今 天 的 大 多 数 操作 系统 都 支持 Kerberos ， 其 中 包括 微软 ”的 Windows 操作 系统 。 

基本 上 ，Kerberos 中 的 用 户 喘 份 认 证 是 基于 密码 的 。 但 是 ， 密 人 码 不 再 直接 交换 。 这 是 通过 基于 
Needham - Schroeder 协议 ”方案 实现 并 完成 的 ， 该 协议 使 用 加 密 操作 来 实现 相互 认证 和 机 密 性 保护 。 
该 方案 的 核心 是 密 钥 分 配 中 心 (Key Distribution Center, KDC), CSEE (PMAR) 中 的 每 个 用 户 
(以 及 每 个 服务 器 ) 共享 密 钥 。 图 A. 15 展示 了 该 方案 的 工作 原理 。 





密 钥 分 配 中 心 (KDC) 
Alice, AS 


ticketas,Ka_ag(time) 应 用 服务 器 
(AS) 


， 4] A. 15 Kerberos 工作 原理 g 
Kys Kas —Alice 和 AS 各 自 的 密 钥 ; KA_As AS: Ali : “4 


例如 ，Alice 想 要 访问 提供 电子 邮件 服务 的 应 六 用 程序 服务 器 。 她 登录 到 K KDC, ae Tine ea 
用 服务 器 的 名 字 。 在 收 到 Alice 的 信息 之 后 ，KDC 为 Alice 和 该 应 用 服务 器 生成 了 一 个 会 话 密 铀 
(K、s) ， 供 两 者 共享 ， 并 使 用 Alice 的 密 钥 对 该 密 钥 进行 加 密 [产生 K、(K,_，s)]， iaa ale 
务 器 的 密 钥 也 对 该 密 钥 (以 及 Alice 的 名 字 ) 进行 加 密 (产生 ticket,s， 称 为 应 用 服务 器 票据 )， 并 将 这 
两 个 加 密 的 blob (二 进 制 大 对 象 ) 发 送 给 Alice, Alice 解密 会 话 密 钥 ， 然 后 使 用 该 会 话 密 钥 对 时 间 惟 进 
行 加 密 ， 并 将 其 与 票据 (对 Alice 来 说 是 不 可 读 的 ) 一 起 发 送 给 应 用 服务 器 。 通 过 解密 票据 ， 应 用 服务 
器 得 到 了 会 话 密 钥 和 Alice 的 名 字 。 现 在 Alice 和 该 应 用 服务 器 都 装 有 会 话 密 钥 ， 它 们 可 以 通过 证 明 密 
钥 的 知识 来 相互 认证 。 这 是 通过 Alice 发 送 加密 的 时 间 惟 和 应 用 服务 器 以 同样 的 方法 进行 响应 来 实现 
的 ， 除 了 增加 时 间 惟 用 以 避免 重 放 攻 击 。Alice 成 功 完 成 相互 认证 后 获得 服务 。 只 要 票据 有 效 ，Alice 就 


O 麻 省 理工 学 院 还 开发 了 Kerberos 开源 软件 ， 目 前 由 它 的 Kerberos 和 互联 网 信任 联盟 (Kerberos and Internet Trust Consorti- 
um, KIT) 管理 。 

O ”其 中 一 些 实 现 基于 有 麻 省 理工 学 院 开 发 的 开源 软件 ， 该 软件 还 托管 了 Kerberos 和 互联 网 信任 联盟 来 对 Kerberos 软件 项 目 进 
行 管理 。 


Ka Ka —As)s ticketas 


K4—as (time+1) 





226 


附录 A masalo] 


可 以 使 用 相同 的 票据 获得 后 续 的 服务 。 如 果 票 据 失效 ， 那 么 她 需要 得 到 一 张 新 的 票据 。 

从 用 户 界 面 的 角度 来 看 ， 密 钥 是 透明 的 。Alice 在 登录 KDC 时 仍然 需要 提供 她 的 姓名 和 密码 。Ker- 
beros 的 工作 是 将 密码 转换 成 密 钥 ， 并 立即 将 其 删除 ( 当然 ,每 当 Alice 改变 密码 时 ， 她 的 密 钥 就 需要 
重新 导出 ， 并 且 相 应 地 更 新 KDC。 更 改 密码 实际 上 可 以 实现 为 通过 Kerberos 票据 访问 的 服务 ) 。 但 这 种 
认证 流程 存在 两 个 问题 ， 如 图 A. 15 所 示 。 第 一 个 问题 是 ，KDC 无 法 知道 Alice 是 否 真 地 发 送 了 请 求 。 
不 管 怎样 ， 它 发 送 了 一 个 回复 。 这 是 无 害 的 ， 因 为 除了 Alice 没有 人 能 够 理解 这 个 回复 。 然 而 ,攻击 者 
只 能 继续 发 送 攻击 Alice 密 钥 的 请 求 ， 尤 其 在 它 是 从 密码 导出 的 情况 下 。 为 了 解决 这 个 问题 ， 当 Alice 
发 送 请 求 时 ， 她 可 以 在 她 的 密 钥 上 包含 一 个 加 密 的 时 间 戳 。 现 在 ，KDC 就 可 以 知道 是 否 该 发 送 者 是 真 
的 Alice， 并 且 只 有 在 这 种 情况 下 ， 才 会 发 送 回复 。 

男 一 个 问题 是 ， 客 户 端 必须 在 整个 登录 会 话 期 间 记 住 Alice 的 密 钥 ， 以 便 在 需要 的 时 候 证 明 她 的 身 
份 。 这 使 得 这 种 长 期 密 钥 容易 受到 攻击 。 为 了 解决 这 一 问题 ， 需 要 在 KDC 中 引入 一 个 特殊 的 应 用 服务 
大作 为 缓冲 区 ， 被 称 为 票据 授予 服务 器 (Ticket - Granting Server，TCS) ， 负 责 向 其 他 的 应 用 服务 器 颁 
发 票据 ， 并 与 KDC 中 的 认证 服务 器 共享 密 钥 ， 如 图 A. 16 所 示 。 现 在 ， 当 Alice 首次 登录 时 ， 会 得 到 一 
个 短暂 的 会 话 密 钥 (BIK cs) 和 一 个 特殊 的 票据 ( 称 为 票据 授予 票据 )。 每 当 Alice 寻求 访问 服务 器 
的 权限 时 ， 客 户 端 都 将 使 用 KK rcs F ticketrcs 代 表 她 与 TGS 进行 交互 。 只 要 KK、_ics 和 ticket, A 3X, HEAT 
以 用 它们 得 到 一 个 票据 ， 而 无 须 Alice 重新 输入 她 的 密码 。 


=) 密 钥 分 配 中 心 
Alice, TGS,K ,(time) - 
认证 服务 器 


Ka(Ka_Tos),ticketTGs 


Alice.AS,ticketrcsKA_TGs(time) 查 据 授予 服务 


| 器 CTGS) 


ticketas,K_as(time) MEIR Ht 
(AS) 


: 图 A. 16 Kerberos 工作 原理 (改进 版 ) 
Ky. Kros, Kys—Alice, TGS 和 AS 各自 的 密 钥 ， K、_tes 一 Alice 和 TGS 之 间 的 会 话 密 钥 ; Ka 0 全 

Kerberos 还 文 持 问 其 他 域 提 供 票 据 ( 例如， 企业 外 部 的 组 织 通过 它 与 企业 建立 关系 )。 所 产生 的 跨 
域 认证 对 用 户 来 说 是 透明 的 ， 用 户 在 输入 主机 域 的 用 户 名 和 密码 后 ， 不 需要 重新 认证 身份 。 它 工作 的 
方式 是 将 一 个 域 (flan, BB) TGS 注册 到 男 一 个 域 (例如 , BLA), Wiha, Alice (EFRA) 可 以 通 
过 首次 从 域 A 中 的 TGS 获得 用 于 域 B 中 TGS 的 票据 ， 然 后 使 用 该 票据 从 域 B 中 的 TGS 获得 用 于 应 用 服 
务 胡 的 票据 ， 从 而 来 访问 域 B 中 的 应 用 服务 器 。 

AMAZ, Kerberos 的 重要 功能 是 : 

1) 基于 他 /她 所 知道 的 〈 即 密码 ) 对 人 类 用 户 进行 认证 ， 用 户 可 以 随意 更 改 这 些 他 所 知道 的 内 容 
(例如 ， 密 码 ) 。 

2) 文 持 从 网 络 外 的 主机 对 所 有 网 络 资源 的 单 点 登录 。 

3) 将 用 户 与 协议 复杂 性 相 分 离 ， 用 户 不 需要 了 解 和 考虑 其 中 的 复杂 过 程 (包括 那些 与 密 钥 生成 和 
管理 相关 联 的 协议 ， 它们 实际 提供 了 比 简单 密码 方案 更 为 强大 的 认证 功能 )。 

4) 通过 确保 永久 密 钥 永远 不 会 存储 在 网 络 密 钥 分 配 中 心 之 外 的 地 方 ， 来 保护 终端 用 户 。 


Ka_TGs(Ka-as),ticketas 


KA a As(time ) 








A.4.3 访问 控制 列表 *k*x 


访问 控制 列表 (ACL) 是 特定 于 对 象 的 。 访 问 控制 列表 指定 了 可 以 访问 给 定 的 对 象 的 主体 以 及 主 
体 的 权限 。 该 列表 通常 作为 操作 系统 的 一 部 分 进行 集中 保存 和 管理 。 当 主体 试图 访问 对 象 时 ， 中 央 系 
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统 将 搜索 与 这 个 对 象 关联 的 ACL。 如 果 主 体 
连通 必要 的 权限 在 列表 中 ， 则 可 以 进行 访问 。 
否则 ， 访问 被 拒绝 。 图 A. 17 展示 了 与 第 7 章 
中 的 访问 控制 矩阵 示例 相对 应 的 ACL。 可 以 
看 到 ，ACL 可 能 仍然 是 见长 的 。 一 方面 ，ACL | 对 象 2 一 > | 主体 1: 读 , 写 ， 执 行 ;主体 2: 读 ， 执 行 ; 主 
的 大 小 随 着 合格 用 户 的 数量 而 增长 ， 如 果 用 
户 群 体 频 繁 变化 ， 那 么 ACL 就 会 受到 影响 。 
因此 ， 如 果 该 表 中 的 元 余 信 息 可 以 减少 ， 将 
会 起 到 一 定 的 作用 。 一 种 方法 是 使 用 群 组 
(Group) 的 概念 。 群 组 由 共享 相同 权限 的 多 | 对 象 4 一 | 主体 1: 读 :主体 3: 读 
个 主体 组 成 。 因 此 ，ACL 只 面 问 群 组 而 不 是 
aA a 群 组 是 poe 7 
TESIR TERREA or 

ACL 被 Multics 使 用 ， 并 在 UNIX 操作 系统 中 得 到 了 广泛 的 应 用 。 与 文件 相关 联 的 ACL 通常 表示 
为 三 个 三 元 组 ， 分 别 识别 文件 拥有 者 (Owner), HF (Group) 和 其 他 用 户 (Other) 的 权限 。 每 个 三 
元 组 由 分 别 控制 文件 是 否 可 以 被 读 取 、 写 入 和 执行 的 标志 组 成 。 设 置 了 所 有 标志 的 文件 所 拥有 的 ACL 
可 以 写成 rwxrwxrwx， 表 示 该 文件 对 所 有 用 户 (包括 Owner, Group 和 Other) 可 读 、 可 写 和 可 执行 。 具 
有 更 严格 访问 限制 的 文件 的 ACL 可 以 写成 rwxr- ---- ， 表 示 该 文件 只 对 其 拥有 者 ( Owner) 可 读 、 
可 写 和 可 执行 ， 它 限制 了 拥有 者 可 以 分 配 的 权限 。 例 如 ，Alice (作为 拥有 者 ) 不 能 允许 Bob 读 取 她 的 
SMF, Chris 写 人 她 的 文件 ，Debbie 读 写 她 的 文件 ， 以 及 Eve 执行 她 的 文件 。 所 有 基于 UNIX 的 操作 系 
统 都 已 经 添加 了 具有 不 同 复杂 程度 的 ACL 功能 。 

总 的 来 说 ， 使 用 ACL， 在 访问 时 可 以 很 容易 地 验证 特定 用 户 是 否 确 实 有 访问 的 权限 。 对 象 的 拥有 
者 也 可 以 很 容易 地 撤销 给 予 对 象 的 权限 。 拥 有 者 只 是 从 对 象 的 ACL 中 删除 主体 的 权限 即 可 。 对 给 予 主 
体 的 权限 进行 降级 也 很 容易 。 只 需 将 主体 在 ACL 中 相应 条 目 内 的 具体 权限 删除 即 可 。 但 是 ，ACL 有 局 
限 性 。 起 初 ，ACL 不 适合 处 理 用 户 需 要 将 权限 委派 给 其 他 用 户 一 段 时 间 的 情况 ， 例 如 ， 主 管 要 求 下 属 
在 度假 期 间 批 准 采 购 请 求 。 还 存在 从 众多 ACL 中 确定 每 个 用 户 的 权限 的 内 在 难题 。 然 而 ， 当 某 个 用 户 
访问 权限 需要 被 撤销 时 ， 这 样 的 决定 是 必要 的 。ACL 可 以 同时 包含 用 户 和 用 户 所 属 的 群 组 。 如 果 用 户 
对 对 象 的 权限 被 撤销 ， UE ATARI ARE CS ee a eet 这 一 对 象 。 


A. 4. 4 能 力 列表 


能 力 列表 是 特定 于 主体 的 ， 它 包含 了 授予 给 全 主体 的 能 力 。 能 力 指定 了 特定 的 对 象 以 及 对 该 对 象 允 
许 的 操作 。Dennis 和 Van Hor ”在 描述 一 种 控制 内 存 中 对 象 访问 机 制 时 ， 引 入 了 这 一 术语 。 从 概念 上 
讲 ， 能 力 类 似 于 前 面 介 绍 的 Kerberos 票据 或 OAuth 令 牌 。 图 A. 18 展示 了 与 第 7 章 中 的 访问 控制 矩阵 示 
例 相 对 应 的 能 力 列表 。 主 体 的 能 力 集 明 确 决定 了 主体 可 以 访问 的 对 象 ， 而 不 需要 对 主体 进行 认证 。 


对 象 1 一 > | 主体 1: 读 , 写 ， 执 行 ; 主体 2: 读 ， 执 行 ; 主体 3: 读 ， 


对 象 3 — | 主体 1: 读 ;主体 3: 读 , 写 








对 象 1 一 | 主体 1: 读 , 写 ,执行 ;主体 2: 读 , 写 ， 执 行 ; 主体 3: 读 ; 主 体 4: 读 


对 象 2 — | 主体 1: 读 ,执行 ;主体 2: 读 , 执 行 


HRI 一 | 主体 1: 读 ,执行 ;主体 2: 读 ; 主体 3: 读 ， 写 ; 主体 4: 写 





O 这 里 定义 的 群 组 类 似 于 角色 ， 其 中 与 角色 定义 的 细微 差异 在 于 群 组 可 以 让 它 的 成 员 基 于 任意 的 规则 。 因 此 ， 和 群 组 的 含义 
要 比 角 色 的 含义 更 为 广泛 ， 角 色 往 往 被 绑 定 到 一 组 特定 的 权限 上 例如， 作业 功能 ) 。 

O ACL 目 然 是 操作 系统 的 一 部 分 。 要 让 ACL 工作 ， 命 名 和 认证 主体 〈 用 户 、 进 程 等 ) 是 必须 的 ， 并 且 这 两 者 都 已 经 被 操 
作 系 统 处 理 。 
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当 对 一 个 预期 的 对 象 进行 访问 时 ， 对 象 必 须 呈 现 出 一 种 相应 的 能 力 。 通 常 ， 主 体会 提前 获得 该 能 
H, 并 将 其 存储 供 以 后 使 用 。 因 此 ， 主 体 必须 不 能 伪造 或 修改 能 力 ， 然 后 再 使 用 它 。 换 句 话 说 ， 能 力 
应 该 是 防臭 改 和 可 认证 的 。 为 此 ， 有 效 的 方法 是 通过 加 密 技 术 来 实现 这 一 目的 。 相 关 的 例子 是 Open- 
Stack Keystone 中 的 PKI 令 牌 ， 它 们 被 签名 并 且 是 可 验证 的 。 

还 有 一 个 例子 ，Andrew Tanenbaum 等 人 ”为 Amoeba 分 布 式 操 作 系统 开发 了 一 个 方案 。 该 方案 工作 
原理 如 下 ， 除 了 通常 的 对 象 标识 符 和 权限 之 外 ， 能 力 中 还 包含 一 种 可 认证 的 校 验 和 。 该 校 验 和 使 用 一 
种 加 密 安 全 的 单 向 函数 (如 HMAC) 在 对 象 标识 符 、 权 限 和 仅 对 访问 控制 系统 已 知 的 密 钥 (实际 上 是 
一 个 随机 数 ) 上 进行 计算 得 出 。 当 试图 对 对 象 进行 访问 时 ， 主 体 将 该 能 力作 为 请 求 的 一 部 分 发 送 到 系 
统 。 系 统 使 用 能 力 中 的 对 象 标识 符 和 权限 以 及 它 所 持 有 的 密 钥 来 计算 校 验 和 ， 如 果 校 验 和 与 能 力 中 的 
校 验 和 匹配 ， 则 该 请 求 被 授予 。 否 者 ， 被 拒绝 。 如 果 主 体 更 改 了 对 象 标 识 符 或 权限 ， 则 能 力 中 的 校 验 
和 将 变 为 无 效 。 没 有 密 钥 ， 主 体 也 无 法 产生 正确 的 校 验 和 。 这 种 方案 应 当 会 让 读者 想到 第 6 章 讨论 的 
对 象 存储 访问 控制 机 制 ， 其 工作 原理 与 此 基本 相同 。 

基于 能 力 系 统 的 男 一 层 含义 是 ， 主 体 可 以 将 能 力 的 副本 传递 给 其 他 的 主体 ， 而 无 须 交 换 授权 ， 从 
而 使 它们 能 够 访问 对 象 。 这 是 一 把 双 刃 剑 。 一 方面 ,共享 和 委派 变 得 更 简单 了 。 另 一 方面 ， 跟 踪 谁 将 
哪些 能 力 给 了 谁 ， 以 及 验证 被 给 予 能 力 的 新 持 有 者 是 否 经 过 授权 则 变 得 更 加 困难 。 因 此 ， 难以 将 对 象 
的 选择 性 主体 的 访问 权限 撤销 。 一 种 解决 的 方法 是 让 与 该 对 象 关 联 的 所 有 尚未 解决 的 能 力 失 效 ， 并 向 
合格 的 主体 授予 新 的 能 力 。 这 可 以 通过 改变 Amoeba 中 的 密 钥 和 保持 对 OpenStack Keystone 中 的 撤销 事 
件 的 跟踪 来 实现 。 


Bell -LaPadula {#34}  * & x | 


Bell - LaPadula 模型 “通过 两 种 策略 规则 ( 称 为 属性 ) 来 处 理 对 信息 流 的 控制 。 一 种 策略 规则 是 
简单 安全 属性 ， 其 中 主体 只 能 读 取 相同 或 较 低 安全 级 别 的 对 象 。 因 此 ， 将 军 可 以 阅读 士兵 的 文件 ， 而 
士兵 不 能 阅读 将 军 的 文件 。 但 是 这 种 不 可 上 读 (no -read -up) 规则 不 足以 阻止 信息 向 下 级 泄露 。 将 军 
可 以 阅读 机 密 文 件 ， 并 将 他 阅读 的 内 容 写 到 士兵 可 以 阅读 的 未 加 密 文件 中 。 为 了 防止 这 种 情况 发 生 ， 
不 能 允许 主体 向 下 面 的 安全 层次 写 入 读 取 的 内 容 。 因 此 ， 限 制 属性 或 ” -属性 ”产生 了 ， 这 种 属性 假定 
主体 职能 在 相同 或 更 高 安全 级 别 上 修改 对 象 (这 项 规则 可 以 防止 将 军 复制 机 密 文 件 内 容 并 将 它 粘贴 到 
未 加 密 文 件 中 的 情况 发 生 )。 

当 执 行 这 两 个 规则 时 ， 信 息 只 能 向 上 流动 ， 如 图 A. 19 所 示 。 但 这 在 实践 中 是 有 问题 的 。 在 某 些 时 
候 ， 部 队 必须 从 他 们 的 指挥 官 那里 了 解 他 们 要 去 哪里 。Bell 和 LaPadula 通过 从 这 些 规 则 中 蔬 免 一 组 特 
殊 的 受信 任 的 主体 解决 了 这 个 问题 。 另 一 个 Bell - LaPadula 模型 的 假设 是 ， 涉 及 参与 者 的 安全 级 别 保 持 
相同 (这 被 称 为 基本 假定 性 质 ) 。 如 果 安 全 级 别 允 许 改 变 ， 那 么 信息 可 能 会 流向 不 需要 的 方向 。 图 
A. 20 展示 了 这 种 情况 ， 其 中 主体 4 在 从 上 一 个 示例 中 的 对 象 3 读 取 后 ， 降 低 了 其 自身 的 安全 级 别 ， 并 
写 人 人 对象 1， 从 而 导致 敏感 信息 被 泄露 。 实 际 上 ， 基 本 假定 性 质 有 两 个 版 本 : 强 的 和 弱 的 。 强 版 本 禁止 
在 系统 操作 期 间 更 改 安全 级 别 ， 而 弱 版 本 则 人 允许 更 改 ， 只 要 不 违反 建立 的 安全 策略 (Pla, “不 可 上 
读 ” 或 “不 可 下 写 ”) 。 

针对 保密 ，Bell - LaPadula 模型 本 身 不 关心 秘密 的 可 信赖 性 和 完整 性 ， 这 里 存在 一 个 风险 。 基 于 这 
种 模型 的 应 用 ， 士 兵 可 以 重 写 他 上 级 的 情报 报告 。 因 此 ， 即 使 依靠 只 有 将 军 才 可 以 阅读 报告 的 方法 ， 
将 盏 仍然 有 可 能 得 到 错误 的 信息 。 这 个 问题 的 关键 在 于 主体 创建 的 对 象 的 可 信和 度 可 以 降级 ， 但 不 会 被 
主体 读 取 的 对 和 象 的 可 信 度 升级 。Ken Biba 通过 将 Bell - LaPadula 模型 颠倒 过 来 解决 了 这 个 问题 。 他 的 模 
型 “引入 了 两 个 相反 的 属性 : 上 读 和 下 写 。 与 Bell - LaPadula 的 属性 类 似 ， 它们 的 命名 如 下 : 

1) 简单 完整 性 属性 ， 指 的 是 主体 只 能 读 取 相同 或 更 高 安全 (或 完整 性 ) 级 别 的 对 象 。 

2)° -完整 性 属性 ， 指 的 是 主体 只 能 写 人 相同 或 更 低 安 全 (或 完整 性 ) 级 别 的 对 象 。 

这 些 属性 体现 了 “ 低 水 位 原理 ”: 由 其 他 对 象 组 成 的 对 象 的 完整 性 与 这 组 对 象 中 最 不 可 靠 的 对 象 的 
完整 性 相同 。 从 本 质 上 来 说 ， 这 些 属 性 反映 了 策略 规则 。 执 行 时 ， 确 保 维护 信息 的 完整 性 。Biba 模型 


O 这 与 基于 ACL 的 系统 完全 不 同 ， 该 系统 本 身 需 要 管理 列表 . 
O ”作者 使 用 “* ”作为 临时 占 位 符 ， 等 待 有 令 人 满意 的 名 字 出 现时 将 其 代替 。 


安全 级 别 





安全 级 别 
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是 第 一 个 基于 信息 流 完整 性 的 正式 的 、 可 验证 的 模型 。 与 Bell - LaPadula 模型 一 样 ， 信 息 的 严格 单 向 流 
动 使 得 直接 将 Biba 模型 应 用 到 实际 应 用 中 变 得 困难 。 通 常情 况 下 ,需要 打破 这 种 信息 流 限制 ， 并 且 必 
须根 据 具体 情况 进行 操作 S。 此 外 ， 信 息 披露 和 完整 性 的 保护 通常 需要 一 起 处 理 ， 但 是 Biba 和 Bell - 
LaPadula 模型 是 相 矛 盾 的 ， 从 而 阻止 了 安全 级 别 之 间 的 通信 。 
A.4.6 SAML kk ks 
SAML 是 基于 XML 的 一 种 广泛 实现 的 标准 。 最 初 它 是 由 OASIS 开发 的 ， 之 后 通过 一 系列 的 努力 被 
人 们 所 采纳 。 特 别 是 自由 软件 联盟 的 身份 认证 联盟 框架 (Identity Federation Framework, ID -FF) m H° 
和 Shibboleth 开源 项 目 同 时 采用 了 SAML 1.0 版 本 ， 而 OASIS 此 时 还 正在 对 这 一 标准 进行 修订 。 由 提供 
O RERE, WKK Windows Vista 系统 实现 了 一 种 默认 的 “不 可 上 写 ” 的 策略 。 将 LE 浏览 器 设置 为 低 安全 性 级 别 。 但 是 ， 
默认 情况 下 ， 对 象 具 有 中 等 安全 性 级 别 。 这 是 为 了 限制 基于 浏览 器 的 攻击 造成 的 损害 ; 下 无 法 打开 任何 用 于 写 人 访问 的 


目录 、 文 件 或 注册 表 项 ， 除 非 它们 被 明确 设置 为 低 安全 性 。 
O 自由 联盟 已 经 被 整合 为 坎 塔 拉 倡议 ， 这 是 一 个 “促进 身份 社区 协调 统一 、 互 操作 性 、 创 新 和 广泛 采用 的 ”论坛 。 






230 


附录 A TETO 


商 需求 驱动 的 ID -FF 项 目 引 入 了 信任 圈子 的 概念 ， 并 建立 在 SAML， 以 实现 其 中 的 身份 联合 。 相 比 之 
F, Shibboleth 项 目 主要 处 理 单 点 登录 和 隐私 保护 访问 控制 方面 的 问题 ， 因 为 它 来 源 于 面向 教育 和 研究 
的 互联 网 。 然 而 ， 人 们 对 SAML 所 做 多 方面 的 努力 ， 却 导致 了 不 兼容 变 体 的 产生 。 幸 运 的 是 ， 利 益 相 
关 者 能 够 及 时 地 组 织 起 来 ， 纠 正 这 个 过 程 并 制定 了 一 种 统一 的 版 本 ， 其 结果 是 SAML 2.0 由 OASIS 在 
2005 年 批准 。 这 是 大 多 数 SAML 支持 的 版 本 。 

SAML 2. 0 由 一 系列 规范 组 成 ， 其 核心 规范 定义 了 安全 声明 概念 和 在 身份 识别 提供 者 与 信赖 凭证 方 
之 间 进 行 声 明 交 换 的 协议 「 该 核心 规范 作为 ITU -T Recommendation (建议 ) X.1141'” F 2006 年 发 
布 ]。 安 全 声明 通常 由 身份 识别 提供 者 发 布 ， 并 由 信赖 凭证 方 使 用 ， 从 而 对 主体 〈 例 如 ， 终端 用 户 ) 进 
行 认 证 和 授权 。 声 明 由 一 组 关于 主体 和 上 下 文 信息 的 语句 组 成 ， 例 如， 发 行者 、 接 收 者 、 发 行 时 间 和 
到 期 时 间 。 语 句 可 能 涉及 认证 、 属 性 或 授权 决策 。 认 证 语句 描述 了 认证 交易 ， 包 括 相 关 信 息 ， 例 如 认 
证 方法 和 交易 时 间 (SAML 2.0 没有 规定 特定 的 认证 方法 ,并 且 可 以 支持 一 系列 具有 不 同 优势 的 认证 方 
法 ， 例 如 密码 Kerberos 票据 和 X. 509 证 书 )。 属 性 语句 描述 了 与 主体 相关 联 的 属性 。 最 后 ， 授 权 决 策 
语句 声明 了 是 否 允 许 主体 访问 请 求 的 资源 。 为 了 确保 完整 性 ，SAML 声明 由 发 行者 进行 数字 签名 。 

SAML 2. 0 定义 了 一 组 请 求 啊 应 协议 ， 每 个 请 求 响应 协议 都 是 为 特定 目的 定义 的 。 例 如 ， 声 明 查 询 
和 请 求 协议 可 以 让 信赖 凭证 方 查询 或 请 求 关 于 主体 的 SAML 声明 (相关 的 属性 、 认 证 或 授权 决策 ) 。 认 
证 请 求 协 议 可 以 让 主体 从 身份 识别 提供 者 获得 认证 声明 。 命 名 身份 映射 协议 可 以 让 信赖 凭证 方 从 身份 
识别 提供 者 获得 新 的 主体 标识 符 。 然 而 ， 这 些 协 议 没 有 被 定义 在 可 以 直接 用 于 有 关 各 方 之 间 的 通信 层 
面 上 。 它 们 必须 依靠 现 有 的 通信 协议 (如 HTTP) 来 通过 协议 映射 传送 消息 ( 即 请 求 和 响应 )。 在 
SAML 命名 中 , 将 SAML 消息 映射 到 标准 通信 协议 上 被 称 为 绑 定 ” 。 例 如 ，HTTP 重 定向 绑 定 定 义 了 如 
何 将 SAML 消息 作为 URL 参数 的 一 部 分 携带 。 由 于 URL 的 长 度 在 实际 中 是 有 限 的 ， 因 此 需要 专门 的 编 
码 。 而 且 ， 非 常 大 的 消息 将 需要 通过 其 他 的 绑 定 来 传输 。 一 个 这 样 的 绑 定 是 HTTP POST, EFT Wik 
SAML 消息 作为 base64 编码 内 容 的 一 部 分 进行 传输 。 不 用 说 ， 不 管 哪 种 绑 定 ， 传 输 都 必须 要 得 到 保护 
(通常 通过 TLS) 。 

图 A. 21 展示 了 一 个 通过 “SAML HTTP 重 定 向 绑 定 ”来 完成 身份 联盟 消息 流 工 作 过 程 的 示例 。 这 
里 假设 了 ， 信 赖 赁 证 方 和 身份 识别 提供 者 之 间 有 一 个 预先 建立 的 关系 。 该 流 的 工作 过 程 如 下 : 当 检 测 
到 用 户 (通过 用 户 代理 ) 请 求 资源 访问 尚未 被 认证 时 ， 信 和 赖 赁 证 方 会 发 出 一 个 SAML 认证 请 求 ， 这 个 
SAML 认证 请 求 被 重 定向 到 身份 识别 提供 者 。 然 后 ， 由 喘 份 识别 提供 者 执行 用 户 认 证 的 步骤 。 同 样 ， 这 
些 步骤 是 特定 于 所 选 的 身份 认证 方法 的 ， 这 部 分 内 容 超 出 了 SAML 的 范围 ， 在 这 里 不 做 介绍 。 认 证 步 
又 完成 后 ， 身 份 识 别提 供 者 发 送 携带 声明 的 SAML 认证 响应 ， 该 响应 被 重 定向 到 信赖 凭证 方 。 根 据 收 
到 的 认证 响应 ， 信 赖 凭证 方 随即 做 出 相应 的 啊 应 。 


— SEE ne a 





资源 请 求 
SAML 认证 请 求 


| SAML 认 证 请 求 


特定 于 认证 方法 的 交换 


SAML 认 证 响应 :声明 


SAML 认 证 响应 
资源 响应 





图 A.21 SAML 身份 联盟 消息 流 
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A.4.7 OAuth 2.0 *** | 


本 节 将 进一步 介绍 第 7 章 提 到 的 OAuth 2.0 的 细节 内 容 。 首 先 从 OAuth 2. 0 定义 的 授权 类 型 开始 ; 

1) 授权 码 授权 。 这 种 授权 类 型 由 授权 服务 器 生成 和 验证 ， 提 供给 客户 端 作为 一 次 性 使 用 ， 适 用 于 
客户 端 通过 用 户 代 理 与 用 户 交互 的 情况 。 授 权 码 只 能 使 用 一 次 ， 并 且 绑 定 到 客户 端 。 当 客户 病 获 取 访 
问 令 牌 时 ， 这 种 与 客户 端的 绑 定 需要 授权 服务 器 的 认证 。 需 要 注意 的 是 ， 授 权 服 务 硕 单独 规定 了 授权 
码 的 结构 ， 它 负责 颁发 和 验证 授权 码 。 

2) 隐 式 授权 。 这 种 授权 类 型 旨 在 优化 浏览 避 客 户 端 〈 以 JavaScript 实现 ) 的 性 能 。 对 于 这 样 的 客 
户 端 ， 没 有 确定 的 认证 方式 。 因 此 ， 客 户 端 可 以 直接 获得 访问 令 牌 ， 从 而 节省 了 访问 令 牌 所 需 的 额外 
的 步 又 和 授权 交换 。 

3) 密码 凭证 授权 。 当 然 ， 这 种 授权 类 型 似乎 违背 『 OAuth 的 目标 ， 即 绝对 不 会 泄露 用 户 的 密码 。 
因此 ， 只 有 当 资 源 拥 有 者 (提供 密码 一 方 ) 与 客户 端 之 间 存 在 高 度 信任 时 《〈 例 如， 客户 内 是 用 户 设 备 
的 一 部 分 ) ， 才 应 当 使 用 这 种 类 型 的 授权 。 

4) 客户 端 凭 证 授权 。 这 种 类 型 的 授权 允许 客户 端 通过 事先 安排 来 访问 其 控制 的 或 授权 服务 占 控 制 
的 受 保护 资源 。 

OAuth 2. 0 还 允许 人 们 定义 新 的 授权 类 型 。 一 种 新 兴 的 授权 类 型 是 SAML 2. Bearer Assertion ( 持 有 
者 声明 )。 该 声明 由 身份 识别 提供 者 颁发 (如 前 所 述 )， 声 明 包 含 了 与 主体 有 关 的 安全 相关 信息 ( 例 
如 ， 身 份 和 权限 ) ， 授 权 服 务 器 可 以 使 用 这 种 信息 。Bearer 声明 是 一 种 特定 类 型 的 声明 ， 使 用 它 的 持 有 
者 不 需要 提供 任何 其 他 证 明 (例如 ， 加 密 密 钥 )。 因 此 ， 这 种 声明 必须 得 到 适当 的 保护 。 考 虑 到 不 同 参 
与 者 参与 了 声明 的 颁发 与 处 理 ， 需 要 一 种 标准 的 方法 来 对 它们 做 出 规定 ， 即 这 里 论述 的 SAML 2. 0。 

授权 服务 器 通常 需要 客户 端 在 颁发 访问 令 牌 之 前 对 其 自身 进行 认证 。 绑 定 到 HTTP, OAuth 2.0 文 
持 基 于 密码 〈 例 如 ， 使 用 HTTP 基本 身份 认证 或 摘要 认证 方案 ) 和 声明 的 认证 。 显 然 ， 令 牌 请 求 和 啊 
应 需要 得 到 适当 的 保护 。 它 们 包含 有 敏感 的 信息 〈 例 如 ， 密 码 、 授 权 码 和 访问 令 牌 ) 。 用 来 实现 这 一 目 
的 的 机 制 包 括 TLS 1.2、HTTP“ 缓 存 控制 ”首部 字段 (以 防止 敏感 信息 被 缓存 到 HTTP 缓存 中 ) 和 将 
OAuth 相关 信息 放 在 消息 体 而 不 是 请 求 URI 中 发 送 〈 以 防止 敏感 信息 被 记录 在 用 户 代理 或 其 他 可 能 的 
中 间 件 上 ) 。 

为 了 优化 用 户 体验 ，ONAuth 2. 0 协议 仅仅 使 用 了 HTTP 重 定向 结构 。 图 A. 22 进一步 展示 了 相关 的 消 
息 流 。 然 而 ， 使 用 HTTP 重 定向 的 代价 较 高 。 例 如 ， 假 设 用户 可 以 使 用 所 有 可 用 于 图 形 用 户 界 面 的 技 
巧 ， 但 是 对 于 用 户 来 说 验证 重 定向 URI 仍然 是 很 困难 的 〈 如 果 不 是 不 可 能 的 话 ) 。 因 此 ， 用 户 可 能 在 不 


授权 服务 需 





0. 服 务 请 求 


2. 授 权 请 求 (客户 端 ” 重 定向 URI 等 ) 


3. 拥 有 者 认证 和 授权 


4. 重 定向 响应 (授权 码 或 访问 令 牌 等 ) 


5. 响 应 (授权 码 或 访问 令 牌 ) 


图 A.22 OAuth 2. 0 用 户 授 权 消息 流 








知情 的 情况 下 授权 非法 网 站 。 为 了 解决 这 个 问题 ， 一 种 对 策 是 让 授权 服务 器 保存 一 份 重 定向 URI 日 名 
单 。 换 句 话 说， 所 有 合法 客户 端 均 需 要 事先 向 授权 服务 器 注册 它们 的 重 定向 URI。 不 过 ， 这 不 是 和 常用 的 
做 法 。 另 一 个 问题 是 跨 站 请 求 伪 造 。 从 用 户 返 回 到 客户 端的 重 定 向 为 攻击 者 提供 了 一 种 可 注 和 人 攻击 者 
自己 授权 码 或 访问 令 牌 的 渠道 。 一 种 对 策 是 让 客户 端 跟 踪 授 权 状 态 。 为 此 ，OAuth 2.0 文 持 一 种 在 协议 
中 携 斋 状态 信息 的 参数 。 当 将 用 户 代 理 重 定 回 到 授权 服务 器 时 ， 客 户 端 可 能 包含 此 参数 。 然 后 ， 在 所 
有 相关 的 后 续 消 息 中 重复 ， 直 到 携带 授权 结果 的 消息 回 到 客户 端 。 由 于 参数 的 值 由 客户 端 单独 设置 和 
处 理 ， 所 以 客户 端 对 其 结构 具有 完全 的 控制 权 。 在 状态 管理 方面 ， 它 可 以 捕获 授权 会 话 标识 符 或 某 些 
特定 的 本 地 状态 信息 。 在 额外 的 安全 保护 方面 ， 它 可 以 包括 签名 。 再 次 ， 由 于 敏感 信息 (例如 ， 授 权 
码 和 令 牌 ) 是 通过 网 络 传输 的 ， 所 以 授权 交换 应 该 通过 诸如 TLS 的 安全 传输 协议 进行 。 


A.4.8 OIDC +++ 


OpenID 连接 (OpenID Connect, OIDC) 是 OpenID 的 最 新 发 展 结果 ， 两 者 之 间 唯 一 的 联系 只 能 体现 
在 名 字 上 。OIDC 是 由 OpenID 基金 会 开发 的 ，OpenID 是 一 个 以 用 户 为 中 心 的 身份 联盟 机 制 。 使 用 
OpenID, ， 用 户 可 以 选择 和 维护 他 的 标识 符 (通常 是 URI)， 并 且 可 以 选择 他 的 身份 提供 者 。OpenID 还 配 
有 自己 的 定制 联盟 认证 协议 ， 与 HTTP RBA. 与 SAML AEE, OpenID 拥有 更 加 轻 量 级 的 方法 ， 
并 且 关 注 的 范围 更 加 集中 。OpenID 仍然 使 用 XML 和 自 定 义 的 消息 签名 方案 ， 这 使 得 它们 在 实现 的 正确 
性 和 互 操作 方面 具有 一 定 的 挑战 性 。 之 后 ， 社 交 网 络 服务 就 出 现 了 ， 其 相关 联 的 身份 联盟 技术 逐渐 超 
T OpenID ， 并 最 终 迫 使 OpenID 继续 前 进 。 

OIDC 基于 OAuth 2.0， 因 此 自然 继承 了 后 者 的 优点 ， 包 括 支 持 REST、JSON、 标 准 签名 和 加 密 机 
制 ， 以 及 各 种 部 署 情况 。 因 此 ,在 ODC 中 ， 其 互 操作 性 得 到 了 改善 。 但 是 以 用 户 为 中 心 的 功能 ( 例 
如 ， 用 户 定义 的 标识 符 ) 消失 了 。 根 据 OpenID 基金 会 (该 组 织 持续 跟 进 OpenID 的 演进 ) ODC; 

“人 允许 客户 端 基于 授权 服务 器 执行 的 认证 来 验证 终端 用 户 的 身份 ， 以 及 以 客户 操作 的 和 类 似 REST 
的 方式 获得 有 关 终 端 用 户 的 基本 配置 文件 信息 。OIDC 介 许 所 有 类 型 的 客户 端 (包括 Web 客户 端 、 移 动 
客户 端 和 JavaScript 客户 端 请 求 和 接收 与 认证 会 话 和 终端 用 户 有 关 的 信息 。 这 套 规范 是 可 扩展 的 ， 允 
许 参 与 者 使 用 可 选 的 功能 ， 例 如 身份 数据 加 密 、OpenID 提供 商 发 现 和 会 话 管理 。” 

图 A.23 展示 了 一 个 ODC 消息 流 的 示例 ， 其 中 基本 遵循 了 OAuth 2.0 中 的 授权 码 流 。 根 据 OIDC 
1.0 核心 规范 的 内 容 ， 其 中 的 主要 差异 包括 : 


授权 服务 器 资源 服务 器 终端 用 户 
1. 重 定向 响应 (范围 等 ) 


2. 授 权 请 求 (范围 等 | 





0. 服 务 请 求 


HTTP 
3 拥有 者 认证 和 授权 AGE IF] 


4 重 定向 响应 (授权 码 等 ) 


| oe 
6. 令 牌 请 求 
7. 啊 应 (ID 令 牌 ， | 
访问 令 牌 等 ) 
o @ 授权 端点 
8. 用 户 信 息 请 求 (访问 令 牌 ) o 今 牌 端 点 
— SHANA @ 用 户 信息 端点 


5. 响 应 (授权 但 等 ) 





1) 为 范围 参数 定义 了 一 组 
步 又 1 和 步骤 2) 中 包含 openid 属于 强制 要 求 。 还 可 以 包含 多 个 附加 值 。 关 于 客户 端 可 以 获得 的 终端 用 
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户 的 信息 取决 于 这 些 范围 值 的 存在 。 

2) 除了 访问 令 牌 之 外 ，ID 令 牌 也 作为 令 牌 啊 应 的 一 部 分 予以 返回 〈 即 步骤 7)。 了 ID 令 牌 被 表示 成 
带 有 基于 IETF 标准 的 JSON Web 签名 的 JSON Web 令 牌 。 它 包含 了 一 组 由 授权 服务 器 做 出 的 声明 。 这 组 
声明 必须 包含 验证 响应 发 行者 的 信息 、 目 标 受 众 〈 即 客户 端 ) 、 令 牌 的 到 期 时 间 和 令 牌 的 颁发 时 间 。 该 
信息 用 于 在 其 签名 被 验证 为 有 效 之 后 进一步 验证 该 令 牌 。 

3) 与 经 过 身份 验证 的 终端 用 户 有 关 的 声明 被 视 为 通过 资源 服务 器 的 UserInfo (用 户 信 息 ) 端点 可 
访问 的 受 保护 资源 。 为 了 获得 与 终端 用 户 有 关 的 声明 ， 客 户 端 向 Userinfo 端点 发 送 请 求 ， 其 中 包括 访问 
Ai (如 步骤 8 所 示 )。 返 回 的 声明 取决 于 访问 令 牌 中 的 范围 (scope) fA. 例如， 如 采 范 围 (scope) 
参数 的 值 是 配置 文件 (profile) ， 则 返回 终端 用 户 的 默认 声明 。 这 些 声明 揭示 了 一 些 像 全 名 、 人 性 别 、 出 
生日 期 和 主页 方面 的 信息 。 声 明 一 般 被 表示 成 JSON 对 象 ， 这 些 对 象 可 以 是 签名 的 或 加 密 的， 或 者 既 被 
签名 又 被 加 密 。 


A.4.9 访问 控制 标记 语言 *** | 
基于 属性 的 访问 控制 (Attribute - Based Access Control, ABAC) 是 从 第 7 章 讨论 的 RBAC 模型 演化 
而 来 的 。 它 允许 在 访问 对 象 时 考虑 不 同 的 属性 (在 值 和 关系 方面 )。 属 性 可 以 由 对 象 提供 ， 作 为 访问 请 
求 的 一 部 分 或 从 环境 推断 〈 例 如， 在 时 间 和 位 置 的 情况 下 ) ABAC 的 具体 实现 ， 即 由 OASIS 和 ITU -T 
联合 标准 化 的 可 扩展 访问 控制 标记 语言 (Extensible Access Control Markup Language, XACML) nay | 
语言 旨 在 规定 访问 控制 策略 和 查询 相关 方面 的 功能 。 

XACML 遵循 一 般 的 策略 控制 模型 ， 采 用 了 前 面 描述 的 用 于 QoS 支持 的 PDP 和 PEP, 并 且 还 包括 以 
下 结构 : 

1) 策略 管理 点 (Policy Administration Point，PAP) ， 负 责 管理 调用 典型 操作 (例如 ， 创建、 更 新 和 
删除 ) 的 策略 。 

2) 策略 库 ， 它 是 一 个 存储 策略 的 数据 库 或 数据 库 集合 〈 通 常 以 规则 的 形式 表示 , 如 正 < 条 件 > 
THEN < 动作 > )。 

图 A. 24 展示 了 这 些 不 同 的 结构 如 何 通 过 示例 


中 的 工作 流程 相互 关联 ， 其 中 包括 以 下 步骤 : 策略 管理 点 (PAP) 


1) PEP 接收 对 受 保护 资源 〈 或 对 象 ) 的 访问 | 上 


we =) 6b 6 
2) PEP 将 请 求 传递 给 PDP。 | BS 
3) PDP BRS FP ASS 的 策略 。 a 全 本 雪村 二 
4) PDP 在 做 出 访问 决定 之 后 ， 将 结果 返回 

2 PEP. 

5) PEP 返回 请 求 的 资源 或 拒绝 访问 请 求 ， 执 è $ 

行 决 定 。 
XACML 基于 SAML 并 与 SAML 一 致 。 它 包含 图 A.24 策略 控制 流 

两 个 关键 组 成 部 分 : 


1) 基于 XML 的 语言 ， 用 于 表达 授权 和 授权 策略 (例如 ， 谁 可 以 做 什么 ， 在 哪里 做 ， 何 时 做 )。 此 
类 策略 存储 在 策略 库 中 。 

2) PDP 和 PEP 之 间 的 请 求 和 响应 消息 ， 其 中 请 求 消息 用 于 触发 并 反馈 到 PDP 中 的 策略 评估 过 程 ， 
KÄ PDP 的 响应 消息 用 于 捕获 PEP 需要 履行 的 动作 或 义务 。 

对 于 基于 XML 的 语言 ，XACML 是 见长 的 ， 通常 由 机 器 生成 。 为 了 支持 RBAC， 人 们 为 XACML 2.0 
和 3.0 分 别 开 发 了 两 个 同名 的 配置 文件 。 在 这 两 个 配置 文件 中 ， 角 色 一 般 被 表示 为 主体 属性 ”。 根 
据 应 用 程序 环境 ， 可 能 会 有 一 个 角色 属性 的 值 对 应 于 不 同 的 角色 (例如 ,， “雇员 “主管” 或 “官员 ”)， 








加 “具体 来 说 ， 主 体 属 性 是 与 主体 相关 联 的 XACML 请 求 中 的 < Attribute > 元 素 。XACML 请 求 中 的 < Attribute > 元 素 也 可 能 与 
受 保护 的 资源 (资源 属性 ) 、 对 资源 的 动作 (动作 属性 ) 或 请 求 的 环境 (环境 属性 ) 相关 联 。 
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或 不 同 的 属性 标识 符 ， 每 一 个 都 指示 一 个 不 同 的 角色 。 而 且 ， 两 个 配置 文件 中 还 定义 了 以 下 策略 类 型 : 

1) 角色 (Role) ， 将 一 个 给 定 的 角色 属性 和 值 与 一 个 权限 相关 联 。 

2) 权限 (Permission ) ,包含 实际 的 权限 〈 即 策略 元 素 和 规则 ) 。 

3) 有 特权 的 角色 (HasPrivilegesOfRole) ， 支 持 查 询 某 个 主体 是 否 有 与 给 定 角色 相关 联 的 权限 ， 也 
可 以 表达 用 户 同 时 拥有 多 个 角色 的 策略 。 

需要 注意 的 是 ， 在 XACML 2.0 的 RBAC 配置 文件 中 ， 有 一 个 额外 的 策略 类 型 [ 即 角色 分 配 (Role 
Assignment) ] 被 定义 用 来 处 理 角 色 到 主体 的 实际 分 配 。 但 是 ， 主 体 一 般 可 以 充当 什么 角色 的 问题 超出 
J XACML 的 范围 。 该 问题 由 角色 启用 机 构 根 据 下 面 的 这 段 内 容 解 决 ， 即 本 章 参 考 文献 [33, 34] 中 共 
同 的 范围 描述 内 容 : 

“这 样 的 实体 可 以 使 用 XACML 策略 ， 但 需要 额外 的 信息 …… 在 该 配置 文件 中 指定 的 策略 ， 假 设 提 
供给 特定 主体 的 所 有 角色 都 已 经 在 请 求 授权 决策 时 启用 了 。 有 一 种 情况 是 它们 不 处 理 的 ， 即 角色 必须 
根据 主体 执行 的 资源 或 动作 动态 启用 。 因 此 ， 此 配置 文件 中 规定 的 策略 也 不 会 处 理 静 态 或 动态 的 “ 职 
责 分 离 关 系 ”…… 未 来 的 配置 文件 可 能 会 满足 这 种 情况 的 要 求 。 
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